Si habla inglés u otro idioma importante, puede hablar con su teléfono móvil, usar motores de búsqueda y obtener sistemas de traducción automática para que hagan sus traducciones por usted. Esto ha sido posible porque el inglés es un gran idioma con un gran númerode los recursos que los lingüistas emplean para desarrollar tecnología lingüística. Las personas que hablan feroés, galés o gallego son menos afortunadas.
"Cuando desarrollamos sistemas de traducción automática y motores de búsqueda, generalmente alimentamos una gran cantidad de textos anotados manualmente que contienen información sobre la función y el significado de palabras individuales en una computadora. Por razones históricas, estos textos han sido principalmente artículos de periódicos en inglésy otros idiomas importantes. No tenemos acceso a textos anotados de manera similar en idiomas más pequeños como feroés, galés, gallego e irlandés, o incluso un idioma africano importante como el yoruba que hablan 28 millones de personas ", dice el profesor Anders Søgaard de la Universidadde Copenhague.
Anders Søgaard y sus colegas del proyecto LOWLANDS: Parsing Language and Low-Resource Languages and Domains están utilizando los textos que fueron anotados para grandes idiomas para desarrollar tecnología de lenguaje para idiomas más pequeños, la clave para encontrar textos traducidos para que los investigadorespuede transferir el conocimiento de la gramática de un idioma a otro idioma :
"La Biblia ha sido traducida a más de 1,500 idiomas, incluso los más pequeños y 'exóticos', y las traducciones son extremadamente conservadoras; los versos tienen una estructura completamente uniforme en los diferentes idiomas, lo que significa que podemos hacerlos adecuadosmodelos de computadora de incluso idiomas muy pequeños donde solo tenemos un par de cientos de páginas de texto bíblico ", dice Anders Søgaard y elabora :
"Enseñamos a las máquinas a registrar lo que se traduce con qué en las diferentes traducciones de textos bíblicos, lo que hace posible encontrar tantas similitudes entre los textos anotados y no anotados que podemos producir modelos informáticos exactos de 100 idiomas diferentes -idiomas como el swahili, el wolof y el xhosa que se hablan en Nigeria. Y hemos puesto estos modelos a disposición de otros desarrolladores e investigadores. Esto significa que podremos desarrollar recursos tecnológicos para estos idiomas similares a aquellos que hablan idiomas comocomo el inglés y el francés ".
Anders Søgaard y sus colegas han presentado recientemente sus resultados en el artículo "" Si todo lo que tienes es un poco de la Biblia "en la conferencia Reunión anual de la Asociación de Lingüística Computacional.
Wikipedia como diccionario universal
La enciclopedia en línea impulsada por el usuario Wikipedia también ha demostrado ser una fuente muy útil para los investigadores que usan sus textos para desarrollar recursos lingüísticos para idiomas donde las personas no tienen acceso a las nuevas tecnologías lingüísticas. Wikipedia contiene más de 35 millones de artículos,pero es el hecho de que hasta 129 idiomas están representados por más de 10,000 artículos cada uno lo que los investigadores encuentran interesante ya que muchos artículos se refieren a los mismos conceptos y temas.
"Esto nos permite hacer lo que llamamos 'indexación invertida', lo que significa que usamos el concepto de que los artículos de Wikipedia están a punto de describir las palabras utilizadas en los artículos sobre el concepto en diferentes idiomas. Usualmente usamos las palabras para describirel concepto pero aquí lo hacemos en orden inverso ", explica Anders Søgaard y continúa :
"Si la palabra inglesa 'gafas' aparece en la entrada de Wikipedia en inglés sobre Harry Potter, y la palabra alemana 'Brille' se usa en la entrada alemana equivalente, es muy probable que las dos palabras se representen de manera similaren nuestros modelos que forman la base de, por ejemplo, sistemas de traducción automática, y la ventaja de este modelo es que se puede aplicar a 100 idiomas diferentes al mismo tiempo, incluidos muchos idiomas a los que previamente se les han denegado los recursos tecnológicos de idiomas que usamosdía."
El método se describe en el artículo 'Indización invertida para PNL translingual' que Anders Søgaard escribió junto con investigadores de Google London. El artículo también se presentó en la Reunión Anual de la Asociación de Lingüística Computacional.
El informe se puede encontrar en: http://aclweb.org/anthology/P15-2044
Fuente de la historia :
Materiales proporcionado por Universidad de Copenhague - Facultad de Humanidades . Nota: El contenido puede ser editado por estilo y longitud.
Cita esta página :