Investigadores de Vrije Universiteit Amsterdam y el Grupo de Humanidades de la Real Academia Holandesa evaluaron cuatro herramientas de vanguardia para reconocer nombres en el texto, evaluar y mejorar su desempeño en la ficción popular. Encuentran soluciones para aumentar la capacidad de las herramientasreconocer nombres en una novela con una precisión del 7% al 90%.
Las herramientas de procesamiento del lenguaje natural PNL se usan comúnmente en muchas aplicaciones cotidianas como Siri y Google, pero la efectividad de estas tecnologías no se comprende completamente. Investigadores de Vrije Universiteit Amsterdam y el Grupo de Humanidades de la Real Academia Holandesahan realizado una evaluación exhaustiva de cuatro herramientas de reconocimiento de nombres diferentes en 40 novelas populares, incluido A Game of Thrones. Sus análisis, publicados en PeerJ Informática resalte los tipos de nombres y textos que son particularmente difíciles de identificar para estas herramientas, así como las soluciones para mitigar esto. Además, extrajeron las redes sociales de las novelas para explorar las diferencias en la estructura de la historia. Estas ideas pueden ayudar a hacer tales tecnologíasmás robusto contra las diferencias de género, y puede ayudar, por ejemplo, a hacer que esta tecnología sea más útil para los periodistas que desean analizar grandes conjuntos de datos, como los Papeles de Panamá.
Muchas herramientas de PNL se basan en el aprendizaje automático; es decir, un programa de computadora está capacitado para identificar patrones en texto basados en ejemplos previamente alimentados. Para reconocer nombres en el texto, por ejemplo, se alimentan muchos artículos de periódicos en los que los humanos han marcado meticulosamenteel programa tiene la tarea de "aprender" cómo se ve un nombre en función del contexto por ejemplo, precedido por Mr o la forma de la palabra por ejemplo, los nombres generalmente comienzan con una letra mayúscula en inglésAhora, el problema al aplicar tal sistema entrenado en periódicos a novelas, es que los autores de novelas tienen mucha más libertad en su narrativa que los periodistas que necesitan apegarse a los hechos. Los autores de ficción pueden inventar sus propios nombres, como Tywin oR'hllor, o use nombres de caracteres descriptivos directamente del diccionario, como Gray Worm. Estos nombres no se comportan como nombres 'normales', por lo tanto, los sistemas de PNL tienen dificultades para reconocerlos en un texto.
Los experimentos realizados por Niels Dekker Trifork BV, Tobias Kuhn Vrije Universiteit Amsterdam y Marieke van Erp KNAW Humanities Cluster también destacan la flexibilidad del lenguaje y cómo se contextualizan los nombres en las historias. Por ejemplo, es posible referirseDaenerys Targaryen como Daenerys y ella, pero también es conocida como Dany, Daenerys Stormborn, Mother of Dragons, Khaleesi, Unburnt y Mhysa. La red social creada para A Game of Thrones ilustra, por ejemplo, que Dany es utilizada por sus amigos., y su nombre completo Daenerys solo por sus enemigos en su ausencia.
La investigación descrita en esta publicación muestra que se debe prestar más atención al rendimiento de las herramientas de PNL y que todavía hay trabajo por hacer antes de que las computadoras puedan entender completamente el 'texto'.
Fuente de la historia :
Materiales proporcionados por PeerJ . Nota: El contenido puede ser editado por estilo y longitud.
Referencia del diario :
Cita esta página :