Durante los últimos 30 años, los investigadores en informática han estado enseñando a sus máquinas a leer, por ejemplo, asignando números anteriores del Wall Street Journal, para que las computadoras puedan aprender el inglés que necesitan para ejecutar motores de búsqueda como Google o plataformas de minas como Facebooky Twitter para opiniones y datos de marketing.
Pero usar solo inglés estándar ha dejado fuera a segmentos enteros de la sociedad que usan dialectos y variedades no estándar de inglés, y la omisión es cada vez más problemática, dicen los investigadores Brendan O'Connor, experto en procesamiento de lenguaje natural PNL en elLa Universidad de Massachusetts Amherst y Lisa Green, directora del Centro de Estudios de Lengua Afroamericana del campus. Recientemente colaboraron con la estudiante de doctorado en ciencias de la computación Su Lin Blodgett en un estudio de caso de dialecto en conversaciones en línea de Twitter entre afroamericanos.
Los detalles aparecen en su artículo publicado en línea ahora antes de su presentación en la conferencia Empirical Methods on PNL del 2 al 5 de noviembre en Austin, Texas. Los autores creen que su estudio ha creado el mayor conjunto de datos hasta la fecha para estudiarInglés americano de la comunicación en línea, examinando 59 millones de tweets de 2.8 millones de usuarios.
Como explica O'Connor, "Ahora tenemos una gran cantidad de información digital que antes no teníamos, y muchos grupos demográficos diferentes ahora están utilizando nuevas tecnologías. En el lado de la ingeniería informática, muchos más tipos de personasestán utilizando motores de búsqueda como Google, y la computadora necesita poder analizar el texto para comprender lo que están preguntando "
En el aspecto social, agrega Green, las personas de muchos grupos sociales diferentes usan un lenguaje diferente al que se encuentra en los principales medios de comunicación, especialmente de manera informal o entre ellos. Ella señala: "La nueva semántica puede expandirse muy rápidamente si se extrae alguna expresión dedialecto de la comunidad en general. Como lingüistas, siempre estamos interesados en cómo cambia el idioma y ahora estamos viendo algunos cambios muy rápidamente. Por ejemplo, considere la expresión 'mantenerse despierto' en Twitter ".
O'Connor dice: "Lo interesante ahora es que todos estos datos textuales importantes se generan en un contexto menos formal. Si queremos analizar opiniones sobre una elección, por ejemplo, todavía usamos herramientas de PNL para hacerlo, peroen este momento, todas las herramientas están orientadas al inglés formal y estándar. Claramente, hay deficiencias en las tecnologías de status quo ".
Para expandir la PNL y enseñar a las computadoras a reconocer palabras, frases y patrones de idioma asociados con el inglés afroamericano, los investigadores analizaron los dialectos encontrados en Twitter utilizados por los afroamericanos. Identificaron a estos usuarios con datos del censo de EE. UU. Y las características de geolocalización de Twitter paracorrelacionar con los vecindarios afroamericanos a través de un modelo estadístico que asume una correlación suave entre la demografía y el lenguaje.
Validaron el modelo comparándolo con el conocimiento de investigaciones lingüísticas anteriores, demostrando que puede descubrir con éxito los patrones del inglés afroamericano. Green, un lingüista experto en la sintaxis y el idioma del inglés afroamericano, tieneestudió una comunidad en el suroeste de Louisiana durante décadas. Ella dice que hay patrones claros en el sonido y la sintaxis, cómo se unen las oraciones, que caracterizan este dialecto, que es una variedad hablada por algunos, no todos, afroamericanos. Tiene diferencias interesantes comparadasal inglés americano estándar; por ejemplo, "estarán en la tienda" puede significar "a menudo están en la tienda"
Los investigadores también identificaron "nuevos fenómenos que no son bien conocidos en la literatura, como las abreviaturas y acrónimos utilizados en Twitter, en particular los utilizados por hablantes afroamericanos", señala Green. Agrega, "Este es un ejemplo del poderde datos en línea a gran escala. El tamaño de nuestro conjunto de datos nos permite caracterizar la amplitud y profundidad del lenguaje ".
Finalmente, los investigadores evaluaron su modelo en comparación con los clasificadores de idiomas existentes para determinar qué tan bien funcionan las herramientas de PNL existentes en el análisis del inglés afroamericano en los análisis de nivel de usuario y mensaje. Descubrieron que las herramientas actuales ampliamente utilizadas identifican el inglés afroamericano como"No inglés" a tasas más altas de lo esperado, dice O'Connor. Al probar el mejor software de clasificación de idioma de código abierto y el propio identificador de idioma de Twitter, descubrieron que el sistema de código abierto era casi dos veces más malo para el inglés afroamericano que para el inglés en línea asociadocon blancos en los EE. UU. Los investigadores también encontraron problemas similares con el analizador gramatical SyntaxNet de Google.
Agrega: "Google y otras compañías utilizan estos métodos en millones de páginas web todos los días para extraer significado para sistemas como los motores de búsqueda. Dado que el inglés afroamericano se analiza mal, eso implica que el acceso a la información es peor para los textos escritos porHablantes afroamericanos de inglés. La cuestión de la equidad y la equidad en los métodos de inteligencia artificial es motivo de creciente preocupación, ya que son cruciales para las tecnologías que usamos todos los días, como los motores de búsqueda ".
Además, O'Connor afirma: "Las empresas de tecnología tienen problemas bien conocidos con la diversidad. Por ejemplo, Facebook y Google informaron recientemente que solo el 2 por ciento de sus empleados son afroamericanos. Con suerte, los esfuerzos para aumentar la diversidad entre los tecnólogos pueden ayudarllamar la atención para abordar los problemas de equidad en la inteligencia artificial "
Por su parte, Green espera que el nuevo modelo demuestre que "podría haber nuevas oportunidades para que los jóvenes hablantes de inglés afroamericanos contribuyan aún más al procesamiento del lenguaje natural. Podríamos esperar atraer más hablantes de inglés afroamericano"y miembros de otros grupos subrepresentados, a ingeniería y ciencias de la computación ". Los autores planean lanzar su nuevo modelo en el próximo año para identificar mejor el inglés escrito en estos dialectos mediante el uso de datos disponibles públicamente en Twitter.
Fuente de la historia :
Materiales proporcionado por Universidad de Massachusetts en Amherst . Nota: El contenido puede ser editado por estilo y longitud.
Referencia del diario :
Cite esta página :