Noticias de ciencia

de organizaciones de investigación

El sistema de inteligencia artificial navega por la web para mejorar su rendimiento

el sistema de 'extracción de información' ayuda a convertir texto plano en datos para el análisis estadístico

Fecha :: 10 de noviembre de 2016
Fuente :: Instituto de Tecnología de Massachusetts
Resumen :: De la gran cantidad de información desbloqueada por Internet, la mayoría es texto sin formato. Los datos necesarios para responder a innumerables preguntas - sobre, por ejemplo, las correlaciones entre el uso industrial de ciertos químicos e incidentes de enfermedades, o entre patrones de noticiasla cobertura y los resultados de las encuestas de votantes pueden estar en línea, pero extraerlo de un texto simple y organizarlo para un análisis cuantitativo puede llevar mucho tiempo.
Compartir :

HISTORIA COMPLETA

De la gran cantidad de información desbloqueada por Internet, la mayoría es texto sin formato. Los datos necesarios para responder a innumerables preguntas - sobre, por ejemplo, las correlaciones entre el uso industrial de ciertos químicos e incidentes de enfermedades, o entre patrones de noticiasla cobertura y los resultados de las encuestas de votantes pueden estar en línea, pero extraerlo de un texto simple y organizarlo para un análisis cuantitativo puede llevar mucho tiempo.

anuncio

La extracción de información, o clasificar automáticamente los elementos de datos almacenados como texto sin formato, es, por lo tanto, un tema importante de la investigación de inteligencia artificial. La semana pasada, en la Conferencia de la Asociación de Lingüística Computacional sobre Métodos Empíricos sobre Procesamiento del Lenguaje Natural, investigadores del MITEl Laboratorio de Ciencias de la Computación e Inteligencia Artificial ganó el premio al mejor trabajo por un nuevo enfoque para la extracción de información que convierte el aprendizaje automático convencional en su cabeza.

La mayoría de los sistemas de aprendizaje automático funcionan combinando ejemplos de entrenamiento y buscando patrones que corresponden a clasificaciones proporcionadas por anotadores humanos. Por ejemplo, los humanos pueden etiquetar partes del discurso en un conjunto de textos, y el sistema de aprendizaje automático intentaráidentificar patrones que resuelvan ambigüedades, por ejemplo, cuando "ella" es un objeto directo y cuando es un adjetivo.

Por lo general, los informáticos tratarán de alimentar a sus sistemas de aprendizaje automático con la mayor cantidad de datos de entrenamiento posible. Eso generalmente aumenta las posibilidades de que un sistema pueda manejar problemas difíciles.

Por el contrario, en su nuevo artículo, los investigadores del MIT entrenan su sistema en datos escasos, porque en el escenario que están investigando, eso generalmente es todo lo que está disponible. Pero luego encuentran que la información limitada es un problema fácil de resolver

"En la extracción de información, tradicionalmente, en el procesamiento del lenguaje natural, se le entrega un artículo y debe hacer lo que sea necesario para extraerlo correctamente de este artículo", dice Regina Barzilay, profesora de ingeniería eléctrica e informática de Delta Electronics.y autor principal del nuevo artículo: "Eso es muy diferente de lo que tú o yo haríamos. Cuando leas un artículo que no puedes entender, irás a la web y encontrarás uno que puedas entender."

aumento de confianza

anuncio

Esencialmente, el nuevo sistema de los investigadores hace lo mismo. Un sistema de aprendizaje automático generalmente asignará a cada una de sus clasificaciones un puntaje de confianza, que es una medida de la probabilidad estadística de que la clasificación sea correcta, dados los patrones discernidos en eldatos de capacitación: con el nuevo sistema de los investigadores, si el puntaje de confianza es demasiado bajo, el sistema genera automáticamente una consulta de búsqueda web diseñada para extraer textos que probablemente contengan los datos que está tratando de extraer.

Luego intenta extraer los datos relevantes de uno de los nuevos textos y concilia los resultados con los de su extracción inicial. Si el puntaje de confianza sigue siendo demasiado bajo, pasa al siguiente texto extraído por la cadena de búsqueda, ypronto.

"El extractor base no está cambiando", dice Adam Yala, un estudiante graduado en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación del MIT EECS y uno de los coautores del nuevo artículo. "Vas a encontrar artículoseso es más fácil de entender para ese extractor. Así que tienes algo que es un extractor muy débil, y solo encuentras datos que se ajustan automáticamente desde la web ". Uniéndose a Yala y Barzilay en el papel es el primer autor Karthik Narasimhan, también estudiante de posgrado.en EECS.

Sorprendentemente, cada decisión que toma el sistema es el resultado del aprendizaje automático. El sistema aprende a generar consultas de búsqueda, medir la probabilidad de que un nuevo texto sea relevante para su tarea de extracción y determinar la mejor estrategia para fusionar los resultados de múltiplesintentos de extracción.

Solo los hechos

En experimentos, los investigadores aplicaron su sistema a dos tareas de extracción. Una fue la recopilación de datos sobre tiroteos masivos en los EE. UU., Que es un recurso esencial para cualquier estudio epidemiológico de los efectos de las medidas de control de armas.recopilación de datos similares sobre casos de contaminación de alimentos. El sistema se capacitó por separado para cada tarea.

anuncio

En el primer caso, la base de datos de tiroteos masivos, se le pidió al sistema que extrajera el nombre del tirador, la ubicación del tiroteo, el número de heridos y el número de personas asesinadas.caso de contaminación, extrajo el tipo de alimento, el tipo de contaminante y la ubicación. En cada caso, el sistema recibió capacitación sobre unos 300 documentos.

De esos documentos, aprendió grupos de términos de búsqueda que tendían a estar asociados con los elementos de datos que intentaba extraer. Por ejemplo, los nombres de los tiradores en masa se correlacionaron con términos como "policía", "identificado", "arrestado", "y" acusado ". Durante la capacitación, para cada artículo que se le pidió al sistema que analizara, extrajo, en promedio, otros nueve o 10 artículos de noticias de la web.

Los investigadores compararon el rendimiento de su sistema con el de varios extractores capacitados utilizando técnicas de aprendizaje automático más convencionales. Por cada elemento de datos extraído en ambas tareas, el nuevo sistema superó a sus predecesores, generalmente en aproximadamente un 10 por ciento.

marque la diferencia: oportunidad patrocinada

Fuente de la historia :

Materiales proporcionados por Instituto de Tecnología de Massachusetts . Nota: El contenido puede ser editado por estilo y longitud.

Cita esta página :

Instituto de Tecnología de Massachusetts. "El sistema de inteligencia artificial navega por la web para mejorar su rendimiento: el sistema de" extracción de información "ayuda a convertir texto plano en datos para el análisis estadístico". ScienceDaily. ScienceDaily, 10 de noviembre de 2016. .

Instituto de Tecnología de Massachusetts. 10 de noviembre de 2016. El sistema de inteligencia artificial navega por la web para mejorar su rendimiento: el sistema de 'extracción de información' ayuda a convertir el texto plano en datos para el análisis estadístico. ScienceDaily . Recuperado el 14 de junio de 2020 de www.science-things.com/releases/2016/11/161110120227.htm

Instituto de Tecnología de Massachusetts. "El sistema de inteligencia artificial navega por la web para mejorar su rendimiento: el sistema de 'extracción de información' ayuda a convertir texto plano en datos para el análisis estadístico". ScienceDaily. Www.science-things.com/releases/2016/11/161110120227.htm consultado el 14 de junio de 2020.

TEMAS RELACIONADOS
- Computadoras y matemáticas

anuncio

TÉRMINOS RELACIONADOS

HISTORIAS RELACIONADAS

DE ALREDEDOR DE LA WEB

A continuación hay artículos relevantes que pueden interesarle. ScienceDaily comparte enlaces con publicaciones académicas en el red TrendMD y gana ingresos de terceros anunciantes, donde se indique.

1

2

El sistema de inteligencia artificial navega por la web para mejorar su rendimiento

el sistema de 'extracción de información' ayuda a convertir texto plano en datos para el análisis estadístico

1

2

3

4

5

1

2

3

4

5

Ciclo de repetición en ráfagas de radio cósmicas inusuales

Nueva prueba de energía oscura y expansión de estructuras cósmicas

Nuevo estudio estima las probabilidades de vida e inteligencia que emergen más allá de nuestro planeta

El mejor material para las mascarillas caseras puede ser una combinación de dos telas

Los ingenieros ponen decenas de miles de sinapsis cerebrales artificiales en un solo chip

Los glóbulos rojos sintéticos imitan a los naturales y tienen nuevas habilidades

El primer ojo artificial esférico del mundo tiene retina 3D

¿Cómo corre el riesgo de contraer un virus en un avión?

¿Qué tan efectivas son las aplicaciones de aprendizaje de idiomas?

Nuevo desafío de refuerzo de mediciones de distancia al modelo básico del universo

Los astrónomos descubren cómo evolucionan los discos Peter Pan de larga vida

El corazón de Black Hole sigue latiendo

Nuevo enfoque para el almacenamiento de datos de ADN hace que el sistema sea más dinámico, escalable

Desbloqueo de superpotencias de PNA para nanoestructuras de autoensamblaje

La inteligencia artificial hace que las caras borrosas se vean más de 60 veces más nítidas

Gotas de transporte de ondas de sonido para dispositivos regrabables de laboratorio en chip

Los jugadores de élite comparten la dureza mental con los mejores atletas, encuentra un estudio

Los científicos aplican 'Twistronics' a la propagación de la luz y hacen un descubrimiento innovador