La Biblioteca de la Abadía de St. Gall en Suiza alberga aproximadamente 160.000 volúmenes de manuscritos literarios e históricos que datan del siglo VIII, todos los cuales están escritos a mano, en pergamino, en idiomas que rara vez se hablan en los tiempos modernos.
Para preservar estos relatos históricos de la humanidad, estos textos, que se cuentan por millones, se han guardado de forma segura en bibliotecas y monasterios de todo el mundo. Una parte significativa de estas colecciones está disponible para el público en general a través de imágenes digitales, perolos expertos dicen que hay una cantidad extraordinaria de material que nunca se ha leído, un tesoro de información sobre la historia del mundo escondido en su interior.
Ahora, los investigadores de la Universidad de Notre Dame están desarrollando una red neuronal artificial para leer escritura antigua compleja basada en la percepción humana para mejorar las capacidades de transcripción de aprendizaje profundo.
"Estamos tratando con documentos históricos escritos en estilos que han pasado de moda hace mucho tiempo, que se remontan a muchos siglos atrás, y en idiomas como el latín, que ya casi nunca se usan", dijo Walter Scheirer, Dennis O. Doughty CollegiateProfesor asociado en el Departamento de Ciencias de la Computación e Ingeniería de Notre Dame. "Puede obtener hermosas fotos de estos materiales, pero lo que nos propusimos hacer es automatizar la transcripción de una manera que imite la percepción de la página a través de los ojos deel lector experto y proporciona una lectura rápida y de búsqueda del texto. "
En una investigación publicada en la revista Institute of Electrical and Electronics Engineers Transacciones sobre análisis de patrones e inteligencia de máquinas , Scheirer describe cómo su equipo combinó los métodos tradicionales de aprendizaje automático con la psicofísica visual, un método para medir las conexiones entre los estímulos físicos y los fenómenos mentales, como la cantidad de tiempo que tarda un lector experto en reconocer un personaje específico,medir la calidad de la escritura a mano o identificar el uso de ciertas abreviaturas.
El equipo de Scheirer estudió manuscritos latinos digitalizados que fueron escritos por escribas en el Claustro de San Galo en el siglo IX. Los lectores ingresaron sus transcripciones manuales en una interfaz de software especialmente diseñada. Luego, el equipo midió los tiempos de reacción durante la transcripción para comprender quélas palabras, los caracteres y los pasajes eran fáciles o difíciles. Scheirer explicó que incluir ese tipo de datos creaba una red más coherente con el comportamiento humano, reducía los errores y proporcionaba una lectura más precisa y realista del texto.
"Es una estrategia que no se usa típicamente en el aprendizaje automático", dijo Scheirer. "Estamos etiquetando los datos a través de estas medidas psicofísicas, que provienen directamente de estudios psicológicos de percepción, tomando medidas de comportamiento. Luego informamos a la red dedificultades comunes en la percepción de estos caracteres y pueden hacer correcciones basadas en esas mediciones ".
El uso del aprendizaje profundo para transcribir textos antiguos es algo de gran interés para los estudiosos de las humanidades.
"Hay una diferencia entre simplemente tomar las fotos y leerlas, y tener un programa que proporcione una lectura que se pueda buscar", dijo Hildegund Müller, profesora asociada en el Departamento de Clásicos de Notre Dame. "Si considera los textos utilizados en esteEl estudio, manuscritos del siglo IX, es una etapa temprana de la Edad Media. Es mucho antes de la imprenta. Es una época en la que se produjo una enorme cantidad de manuscritos. Hay todo tipo de información oculta en estos manuscritos:- textos no identificados que nadie ha visto antes. "
Scheirer dijo que persisten los desafíos. Su equipo está trabajando para mejorar la precisión de las transcripciones, especialmente en el caso de documentos dañados o incompletos, así como también para explicar las ilustraciones u otros aspectos de una página que podrían ser confusos para la red.
Sin embargo, el equipo pudo ajustar el programa para transcribir textos etíopes, adaptándolo a un idioma con un conjunto de caracteres completamente diferente, un primer paso hacia el desarrollo de un programa con la capacidad de transcribir y traducir información para los usuarios.
"En el campo literario, podría ser realmente útil. Toda buena obra literaria está rodeada de una gran cantidad de documentos históricos, pero donde realmente será útil es en la investigación de archivos históricos", dijo Müller.gran necesidad de avanzar en las humanidades digitales. Cuando se habla de la Edad Media y los primeros tiempos de la Edad Moderna, si se quiere comprender los detalles y las consecuencias de los acontecimientos históricos, hay que revisar el material escrito, y estos textos son lo único queEl problema puede ser aún mayor fuera del mundo occidental. Pensemos en lenguas que están desapareciendo en culturas amenazadas. En primer lugar debemos preservar estas obras, hacerlas accesibles y, en algún momento, incorporar traducciones para convertirlas en unparte de procesos culturales que aún están en marcha, y corremos contra el tiempo ".
Fuente de la historia :
Materiales proporcionado por Universidad de Notre Dame . Original escrito por Jessica Sieff. Nota: el contenido se puede editar por estilo y longitud.
Referencia de la revista :
cite esta página :