Noticias de ciencia

de organizaciones de investigación

Los lingüistas usan la Biblia para desarrollar tecnología del lenguaje para idiomas pequeños

Fecha :: 8 de septiembre de 2015
Fuente :: Universidad de Copenhague - Facultad de Humanidades
Resumen :: Siri de Apple, Google Translate y otras tecnologías lingüísticas han sido durante mucho tiempo el dominio de las personas que hablan inglés u otros idiomas mayoritarios. Si hablas galés, feroés o gallego, la tecnología será de poca o ninguna utilidad. Los lingüistas ahora demuestran que puedenproducir tecnología del lenguaje, basada en versos bíblicos y artículos de Wikipedia, para hasta 100 idiomas grandes y pequeños al mismo tiempo
Compartir :

HISTORIA COMPLETA

Si habla inglés u otro idioma importante, puede hablar con su teléfono móvil, usar motores de búsqueda y obtener sistemas de traducción automática para que hagan sus traducciones por usted. Esto ha sido posible porque el inglés es un gran idioma con un gran númerode los recursos que los lingüistas emplean para desarrollar tecnología lingüística. Las personas que hablan feroés, galés o gallego son menos afortunadas.

anuncio

"Cuando desarrollamos sistemas de traducción automática y motores de búsqueda, generalmente alimentamos una gran cantidad de textos anotados manualmente que contienen información sobre la función y el significado de palabras individuales en una computadora. Por razones históricas, estos textos han sido principalmente artículos de periódicos en inglésy otros idiomas importantes. No tenemos acceso a textos anotados de manera similar en idiomas más pequeños como feroés, galés, gallego e irlandés, o incluso un idioma africano importante como el yoruba que hablan 28 millones de personas ", dice el profesor Anders Søgaard de la Universidadde Copenhague.

Anders Søgaard y sus colegas del proyecto LOWLANDS: Parsing Language and Low-Resource Languages and Domains están utilizando los textos que fueron anotados para grandes idiomas para desarrollar tecnología de lenguaje para idiomas más pequeños, la clave para encontrar textos traducidos para que los investigadorespuede transferir el conocimiento de la gramática de un idioma a otro idioma :

"La Biblia ha sido traducida a más de 1,500 idiomas, incluso los más pequeños y 'exóticos', y las traducciones son extremadamente conservadoras; los versos tienen una estructura completamente uniforme en los diferentes idiomas, lo que significa que podemos hacerlos adecuadosmodelos de computadora de incluso idiomas muy pequeños donde solo tenemos un par de cientos de páginas de texto bíblico ", dice Anders Søgaard y elabora :

"Enseñamos a las máquinas a registrar lo que se traduce con qué en las diferentes traducciones de textos bíblicos, lo que hace posible encontrar tantas similitudes entre los textos anotados y no anotados que podemos producir modelos informáticos exactos de 100 idiomas diferentes -idiomas como el swahili, el wolof y el xhosa que se hablan en Nigeria. Y hemos puesto estos modelos a disposición de otros desarrolladores e investigadores. Esto significa que podremos desarrollar recursos tecnológicos para estos idiomas similares a aquellos que hablan idiomas comocomo el inglés y el francés ".

Anders Søgaard y sus colegas han presentado recientemente sus resultados en el artículo "" Si todo lo que tienes es un poco de la Biblia "en la conferencia Reunión anual de la Asociación de Lingüística Computacional.

Wikipedia como diccionario universal

La enciclopedia en línea impulsada por el usuario Wikipedia también ha demostrado ser una fuente muy útil para los investigadores que usan sus textos para desarrollar recursos lingüísticos para idiomas donde las personas no tienen acceso a las nuevas tecnologías lingüísticas. Wikipedia contiene más de 35 millones de artículos,pero es el hecho de que hasta 129 idiomas están representados por más de 10,000 artículos cada uno lo que los investigadores encuentran interesante ya que muchos artículos se refieren a los mismos conceptos y temas.

"Esto nos permite hacer lo que llamamos 'indexación invertida', lo que significa que usamos el concepto de que los artículos de Wikipedia están a punto de describir las palabras utilizadas en los artículos sobre el concepto en diferentes idiomas. Usualmente usamos las palabras para describirel concepto pero aquí lo hacemos en orden inverso ", explica Anders Søgaard y continúa :

"Si la palabra inglesa 'gafas' aparece en la entrada de Wikipedia en inglés sobre Harry Potter, y la palabra alemana 'Brille' se usa en la entrada alemana equivalente, es muy probable que las dos palabras se representen de manera similaren nuestros modelos que forman la base de, por ejemplo, sistemas de traducción automática, y la ventaja de este modelo es que se puede aplicar a 100 idiomas diferentes al mismo tiempo, incluidos muchos idiomas a los que previamente se les han denegado los recursos tecnológicos de idiomas que usamosdía."

El método se describe en el artículo 'Indización invertida para PNL translingual' que Anders Søgaard escribió junto con investigadores de Google London. El artículo también se presentó en la Reunión Anual de la Asociación de Lingüística Computacional.

El informe se puede encontrar en: http://aclweb.org/anthology/P15-2044

marque la diferencia: oportunidad patrocinada

Fuente de la historia :

Materiales proporcionado por Universidad de Copenhague - Facultad de Humanidades . Nota: El contenido puede ser editado por estilo y longitud.

Cita esta página :

Universidad de Copenhague - Facultad de Humanidades. "Los lingüistas usan la Biblia para desarrollar tecnología del lenguaje para idiomas pequeños". ScienceDaily. ScienceDaily, 8 de septiembre de 2015. .

Universidad de Copenhague - Facultad de Humanidades. 8 de septiembre de 2015. Los lingüistas usan la Biblia para desarrollar tecnología lingüística para lenguas pequeñas. ScienceDaily . Recuperado el 17 de julio de 2020 de www.science-things.com/releases/2015/09/150908103356.htm

Universidad de Copenhague - Facultad de Humanidades. "Los lingüistas usan la Biblia para desarrollar tecnología del lenguaje para idiomas pequeños". ScienceDaily. Www.science-things.com/releases/2015/09/150908103356.htm consultado el 17 de julio de 2020.

HISTORIAS RELACIONADAS

DE ALREDEDOR DE LA WEB

A continuación hay artículos relevantes que pueden interesarle. ScienceDaily comparte enlaces con publicaciones académicas en el red TrendMD y gana ingresos de terceros anunciantes, donde se indique.

1

2

Los lingüistas usan la Biblia para desarrollar tecnología del lenguaje para idiomas pequeños

1

2

3

4

5

1

2

3

4

5

Los niños rara vez transmiten COVID-19, los médicos escriben en nuevos comentarios

Resultados de la prueba de falso negativo COVID-19 si se usa demasiado temprano

Pérdida de olor y sabor validado como síntomas de COVID-19 en pacientes con alta tasa de recuperación

¿No podría distanciarse socialmente? Culpe a su memoria de trabajo

Los investigadores encuentran aumento en el síndrome del corazón roto durante la pandemia de COVID-19

Mejora de la vista mejorada al observar la luz roja profunda

Mascarillas críticas para prevenir la propagación de COVID-19

El mejor material para las mascarillas caseras puede ser una combinación de dos telas

¿Niño o niña? Está en los genes del padre

Los investigadores imprimen en 3D una bomba cardíaca que funciona con células humanas reales

Los investigadores convierten mosquitos hembras en machos no picadores con implicaciones para el control de mosquitos

Robot Jaws muestra que el chicle medicado podría ser el futuro

¡Muévete, Siri! Los investigadores desarrollan Chatbot basado en la mejora

Creado 'neurotransistor artificial'

Paso de tiempo distorsionado durante el bloqueo de COVID-19

Dando a los robots una percepción humana de sus entornos físicos

Nuestra herencia animal: los humanos también levantan las orejas cuando escuchan sonidos interesantes

Qué significa cuando los animales tienen creencias