De la gran cantidad de información desbloqueada por Internet, la mayoría es texto sin formato. Los datos necesarios para responder a innumerables preguntas - sobre, por ejemplo, las correlaciones entre el uso industrial de ciertos químicos e incidentes de enfermedades, o entre patrones de noticiasla cobertura y los resultados de las encuestas de votantes pueden estar en línea, pero extraerlo de un texto simple y organizarlo para un análisis cuantitativo puede llevar mucho tiempo.
La extracción de información, o clasificar automáticamente los elementos de datos almacenados como texto sin formato, es, por lo tanto, un tema importante de la investigación de inteligencia artificial. La semana pasada, en la Conferencia de la Asociación de Lingüística Computacional sobre Métodos Empíricos sobre Procesamiento del Lenguaje Natural, investigadores del MITEl Laboratorio de Ciencias de la Computación e Inteligencia Artificial ganó el premio al mejor trabajo por un nuevo enfoque para la extracción de información que convierte el aprendizaje automático convencional en su cabeza.
La mayoría de los sistemas de aprendizaje automático funcionan combinando ejemplos de entrenamiento y buscando patrones que corresponden a clasificaciones proporcionadas por anotadores humanos. Por ejemplo, los humanos pueden etiquetar partes del discurso en un conjunto de textos, y el sistema de aprendizaje automático intentaráidentificar patrones que resuelvan ambigüedades, por ejemplo, cuando "ella" es un objeto directo y cuando es un adjetivo.
Por lo general, los informáticos tratarán de alimentar a sus sistemas de aprendizaje automático con la mayor cantidad de datos de entrenamiento posible. Eso generalmente aumenta las posibilidades de que un sistema pueda manejar problemas difíciles.
Por el contrario, en su nuevo artículo, los investigadores del MIT entrenan su sistema en datos escasos, porque en el escenario que están investigando, eso generalmente es todo lo que está disponible. Pero luego encuentran que la información limitada es un problema fácil de resolver
"En la extracción de información, tradicionalmente, en el procesamiento del lenguaje natural, se le entrega un artículo y debe hacer lo que sea necesario para extraerlo correctamente de este artículo", dice Regina Barzilay, profesora de ingeniería eléctrica e informática de Delta Electronics.y autor principal del nuevo artículo: "Eso es muy diferente de lo que tú o yo haríamos. Cuando leas un artículo que no puedes entender, irás a la web y encontrarás uno que puedas entender."
aumento de confianza
Esencialmente, el nuevo sistema de los investigadores hace lo mismo. Un sistema de aprendizaje automático generalmente asignará a cada una de sus clasificaciones un puntaje de confianza, que es una medida de la probabilidad estadística de que la clasificación sea correcta, dados los patrones discernidos en eldatos de capacitación: con el nuevo sistema de los investigadores, si el puntaje de confianza es demasiado bajo, el sistema genera automáticamente una consulta de búsqueda web diseñada para extraer textos que probablemente contengan los datos que está tratando de extraer.
Luego intenta extraer los datos relevantes de uno de los nuevos textos y concilia los resultados con los de su extracción inicial. Si el puntaje de confianza sigue siendo demasiado bajo, pasa al siguiente texto extraído por la cadena de búsqueda, ypronto.
"El extractor base no está cambiando", dice Adam Yala, un estudiante graduado en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación del MIT EECS y uno de los coautores del nuevo artículo. "Vas a encontrar artículoseso es más fácil de entender para ese extractor. Así que tienes algo que es un extractor muy débil, y solo encuentras datos que se ajustan automáticamente desde la web ". Uniéndose a Yala y Barzilay en el papel es el primer autor Karthik Narasimhan, también estudiante de posgrado.en EECS.
Sorprendentemente, cada decisión que toma el sistema es el resultado del aprendizaje automático. El sistema aprende a generar consultas de búsqueda, medir la probabilidad de que un nuevo texto sea relevante para su tarea de extracción y determinar la mejor estrategia para fusionar los resultados de múltiplesintentos de extracción.
Solo los hechos
En experimentos, los investigadores aplicaron su sistema a dos tareas de extracción. Una fue la recopilación de datos sobre tiroteos masivos en los EE. UU., Que es un recurso esencial para cualquier estudio epidemiológico de los efectos de las medidas de control de armas.recopilación de datos similares sobre casos de contaminación de alimentos. El sistema se capacitó por separado para cada tarea.
En el primer caso, la base de datos de tiroteos masivos, se le pidió al sistema que extrajera el nombre del tirador, la ubicación del tiroteo, el número de heridos y el número de personas asesinadas.caso de contaminación, extrajo el tipo de alimento, el tipo de contaminante y la ubicación. En cada caso, el sistema recibió capacitación sobre unos 300 documentos.
De esos documentos, aprendió grupos de términos de búsqueda que tendían a estar asociados con los elementos de datos que intentaba extraer. Por ejemplo, los nombres de los tiradores en masa se correlacionaron con términos como "policía", "identificado", "arrestado", "y" acusado ". Durante la capacitación, para cada artículo que se le pidió al sistema que analizara, extrajo, en promedio, otros nueve o 10 artículos de noticias de la web.
Los investigadores compararon el rendimiento de su sistema con el de varios extractores capacitados utilizando técnicas de aprendizaje automático más convencionales. Por cada elemento de datos extraído en ambas tareas, el nuevo sistema superó a sus predecesores, generalmente en aproximadamente un 10 por ciento.
Fuente de la historia :
Materiales proporcionados por Instituto de Tecnología de Massachusetts . Nota: El contenido puede ser editado por estilo y longitud.
Cita esta página :