En los últimos años, los sistemas de mejor desempeño en la investigación de inteligencia artificial han sido cortesía de las redes neuronales, que buscan patrones en los datos de entrenamiento que producen predicciones o clasificaciones útiles. Una red neuronal podría, por ejemplo, estar capacitada para reconocer ciertas redes neuronales.objetos en imágenes digitales o para inferir los temas de los textos.
Pero las redes neuronales son cajas negras. Después del entrenamiento, una red puede ser muy buena para clasificar datos, pero incluso sus creadores no tendrán idea de por qué. Con los datos visuales, a veces es posible automatizar experimentos que determinan qué características visuales tiene una red neuronalestá respondiendo. Pero los sistemas de procesamiento de texto tienden a ser más opacos.
En la Conferencia de la Asociación de Lingüística Computacional sobre métodos empíricos en el procesamiento del lenguaje natural, los investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial CSAIL del MIT presentarán una nueva forma de entrenar redes neuronales para que proporcionen no solo predicciones y clasificaciones, sino también razonespor sus decisiones
"En las aplicaciones del mundo real, a veces la gente realmente quiere saber por qué el modelo hace las predicciones que hace", dice Tao Lei, un estudiante graduado del MIT en ingeniería eléctrica y ciencias de la computación y primer autor del nuevo artículo. "la razón por la que los médicos no confían en los métodos de aprendizaje automático es que no hay evidencia "
"No es solo el dominio médico", agrega Regina Barzilay, profesora de ingeniería eléctrica y ciencias de la computación de Delta Electronics y asesora de tesis de Lei. "Es en cualquier dominio donde el costo de hacer la predicción incorrecta es muy alto. Es necesariojustifica por qué lo hiciste "
"También hay un aspecto más amplio en este trabajo", dice Tommi Jaakkola, profesor de ingeniería eléctrica y ciencias de la computación del MIT y el tercer coautor en el documento. "Es posible que no desee verificar que el modelo está haciendo elpredicción de la manera correcta; es posible que también desee ejercer cierta influencia en términos de los tipos de predicciones que debe hacer. ¿Cómo se comunica un laico con un modelo complejo que está entrenado con algoritmos de los que no sabe nada?informarle sobre la justificación de una predicción en particular. En ese sentido, abre una forma diferente de comunicarse con el modelo ".
cerebros virtuales
Las redes neuronales se llaman así porque imitan, aproximadamente, la estructura del cerebro. Están compuestas por una gran cantidad de nodos de procesamiento que, como las neuronas individuales, son capaces de realizar cálculos muy simples pero están conectados entre síen redes densas.
En un proceso denominado "aprendizaje profundo", los datos de entrenamiento se envían a los nodos de entrada de una red, que lo modifican y lo transmiten a otros nodos, que lo modifican y lo transmiten a otros nodos, etc. Los valoresalmacenados en los nodos de salida de la red se correlacionan con la categoría de clasificación que la red está tratando de aprender, como los objetos en una imagen o el tema de un ensayo.
En el transcurso de la capacitación de la red, las operaciones realizadas por los nodos individuales se modifican continuamente para obtener resultados consistentemente buenos en todo el conjunto de ejemplos de capacitación. Al final del proceso, los informáticos que programaron la red a menudo no tienenidea de la configuración de los nodos. Incluso si lo hacen, puede ser muy difícil traducir esa información de bajo nivel de nuevo en una descripción inteligible del proceso de toma de decisiones del sistema.
En el nuevo documento, Lei, Barzilay y Jaakkola abordan específicamente las redes neuronales capacitadas en datos textuales. Para permitir la interpretación de las decisiones de una red neuronal, los investigadores de CSAIL dividen la red en dos módulos. El primer módulo extrae segmentos de texto deldatos de entrenamiento, y los segmentos se puntúan de acuerdo con su longitud y coherencia: cuanto más corto sea el segmento, y cuanto más se extraiga de cadenas de palabras consecutivas, mayor será su puntaje.
Los segmentos seleccionados por el primer módulo se pasan al segundo módulo, que realiza la tarea de predicción o clasificación. Los módulos se entrenan juntos, y el objetivo del entrenamiento es maximizar tanto la puntuación de los segmentos extraídos como la precisión depredicción o clasificación.
Uno de los conjuntos de datos en los que los investigadores probaron su sistema es un grupo de revisiones de un sitio web donde los usuarios evalúan diferentes cervezas. El conjunto de datos incluye el texto sin procesar de las revisiones y las calificaciones correspondientes, utilizando un sistema de cinco estrellas,en cada uno de los tres atributos: aroma, paladar y apariencia.
Lo que hace que los datos sean atractivos para los investigadores del procesamiento del lenguaje natural es que también se ha anotado a mano, para indicar qué oraciones en las revisiones corresponden a qué puntajes. Por ejemplo, una revisión podría consistir en ocho o nueve oraciones, yel anotador podría haber resaltado aquellos que se refieren a la "cabeza de color tostado de la cerveza de aproximadamente media pulgada de grosor", "olor característico de Guinness" y "falta de carbonatación". Cada oración se correlaciona con una calificación de atributo diferente.
Validación
Como tal, el conjunto de datos proporciona una excelente prueba del sistema de investigadores de CSAIL. Si el primer módulo ha extraído esas tres frases y el segundo módulo las ha correlacionado con las calificaciones correctas, entonces el sistema ha identificado la misma base parajuicio que hizo el anotador humano.
En experimentos, el acuerdo del sistema con las anotaciones humanas fue del 96 por ciento y el 95 por ciento, respectivamente, para las calificaciones de apariencia y aroma, y el 80 por ciento para el concepto más nebuloso de paladar.
En el documento, los investigadores también informan que probaron su sistema en una base de datos de preguntas y respuestas técnicas de forma libre, donde la tarea es determinar si una pregunta dada ha sido respondida previamente.
En trabajos inéditos, lo aplicaron a miles de informes de patología sobre biopsias de seno, donde aprendieron a extraer texto que explica las bases para los diagnósticos de los patólogos. Incluso lo están utilizando para analizar mamografías, donde el primer móduloextrae secciones de imágenes en lugar de segmentos de texto.
Fuente de la historia :
Materiales proporcionado por Instituto de Tecnología de Massachusetts . Nota: El contenido puede ser editado por estilo y longitud.
Cita esta página :