Para abordar los problemas de sesgo en la inteligencia artificial, los científicos informáticos de la Universidad de Princeton y Stanford han desarrollado métodos para obtener conjuntos de datos más justos que contienen imágenes de personas. Los investigadores proponen mejoras a ImageNet, una base de datos de más de 14 millones de imágenes que ha jugado un papel clavepapel en el avance de la visión por computadora en la última década.
ImageNet, que incluye imágenes de objetos y paisajes, así como de personas, sirve como fuente de datos de capacitación para investigadores que crean algoritmos de aprendizaje automático que clasifican imágenes o reconocen elementos dentro de ellas. La escala sin precedentes de ImageNet requería una recopilación de imágenes automatizada y una anotación de imágenes de colaboración colectiva.Si bien las categorías de personas de la base de datos rara vez han sido utilizadas por la comunidad de investigación, el equipo de ImageNet ha estado trabajando para abordar los prejuicios y otras preocupaciones sobre las imágenes que muestran a personas que son consecuencias no intencionadas de la construcción de ImageNet.
"La visión por computadora ahora funciona realmente bien, lo que significa que se está implementando en todo el lugar en todo tipo de contextos", dijo la coautora Olga Russakovsky, profesora asistente de ciencias de la computación en Princeton. "Esto significa que ahora es el momentopor hablar sobre el tipo de impacto que está teniendo en el mundo y pensar en este tipo de problemas de equidad "
En un nuevo documento, el equipo de ImageNet identificó sistemáticamente conceptos no visuales y categorías ofensivas, como las caracterizaciones raciales y sexuales, entre las categorías de personas de ImageNet y propuso eliminarlas de la base de datos. Los investigadores también diseñaron una herramienta que permite a los usuarios especificary recuperar conjuntos de imágenes de personas que están equilibradas por edad, expresión de género o color de piel, con el objetivo de facilitar algoritmos que clasifiquen de manera más justa los rostros y las actividades de las personas en imágenes. Los investigadores presentaron su trabajo el 30 de enero en la Association for ComputingConferencia de Maquinaria sobre Equidad, Responsabilidad y Transparencia en Barcelona, España.
"Es muy necesario que los investigadores y laboratorios con experiencia técnica central en esto participen en este tipo de conversaciones", dijo Russakovsky. "Dada la realidad de que necesitamos recopilar los datos a escala, dada la realidad de que esse va a hacer con crowdsourcing porque esa es la tubería más eficiente y bien establecida, ¿cómo lo hacemos de una manera más justa, que no caiga en este tipo de trampas anteriores? El mensaje central de este documento es sobre constructivosoluciones "
Un grupo de informáticos en Princeton y Stanford lanzó ImageNet en 2009 como un recurso para investigadores académicos y educadores. Liderando el esfuerzo estuvo la alumna de Princeton y miembro de la facultad Fei-Fei Li, ahora profesora de ciencias de la computación en Stanford. Para alentar a los investigadoresPara crear mejores algoritmos de visión por computadora utilizando ImageNet, el equipo también creó el Desafío de reconocimiento visual a gran escala ImageNet. El desafío se centró principalmente en el reconocimiento de objetos utilizando 1,000 categorías de imágenes, de las cuales solo tres incluían personas.
Algunos de los problemas de equidad en ImageNet provienen de la tubería utilizada para construir la base de datos. Sus categorías de imágenes provienen de WordNet, una base de datos más antigua de palabras en inglés utilizadas para la investigación del procesamiento del lenguaje natural. Los creadores de ImageNet adoptaron los sustantivos en WordNet, algunos deque, aunque son términos verbales claramente definidos, no se traducen bien en un vocabulario visual. Por ejemplo, los términos que describen la religión o el origen geográfico de una persona podrían recuperar solo los resultados de búsqueda de imágenes más distintivos, lo que podría conducir a algoritmos que perpetúan los estereotipos.
Un proyecto de arte reciente llamado ImageNet Roulette atrajo una mayor atención a estas preocupaciones. El proyecto, lanzado en septiembre de 2019 como parte de una exposición de arte sobre sistemas de reconocimiento de imágenes, utilizó imágenes de personas de ImageNet para capacitar a un modelo de inteligencia artificial que clasificó a las personas enpalabras basadas en una imagen enviada. Los usuarios pueden subir una imagen de sí mismos y recuperar una etiqueta basada en este modelo. Muchas de las clasificaciones eran ofensivas o simplemente fuera de la base.
La innovación central que permitió a los creadores de ImageNet acumular una base de datos tan grande de imágenes etiquetadas fue el uso de crowdsourcing, específicamente, la plataforma Amazon Mechanical Turk MTurk, a través de la cual se pagaba a los trabajadores para verificar las imágenes candidatas. Este enfoque, mientras quetransformador, fue imperfecto, lo que condujo a algunos sesgos y categorizaciones inapropiadas.
"Cuando le pide a las personas que verifiquen imágenes seleccionando las correctas de un gran conjunto de candidatos, las personas se sienten presionadas para seleccionar algunas imágenes y esas imágenes tienden a ser las que tienen características distintivas o estereotípicas", dijo el autor principal Kaiyu Yang,estudiante de posgrado en informática.
En el estudio, Yang y sus colegas filtraron por primera vez las categorías de personas potencialmente ofensivas o sensibles de ImageNet. Definieron las categorías ofensivas como aquellas que contenían blasfemias o insultos raciales o de género; las categorías sensibles incluyeron, por ejemplo, la clasificación de personas basada en la orientación sexualo religión. Para anotar las categorías, reclutaron a 12 estudiantes graduados de diversos orígenes, y les ordenaron que erraran al etiquetar una categoría como sensible si no estaban seguros. Esto eliminó 1.593 categorías, aproximadamente el 54% de las 2.932 categorías de personas enImageNet.
Luego, los investigadores recurrieron a los trabajadores de MTurk para calificar la "capacidad de imagen" de las categorías seguras restantes en una escala de 1 a 5. Mantener las categorías con una calificación de capacidad de imagen de 4 o superior resultó en solo 158 categorías clasificadas como seguras e imaginables.Incluso este conjunto de categorías altamente filtrado contenía más de 133,000 imágenes, una gran cantidad de ejemplos para entrenar algoritmos de visión por computadora.
Dentro de estas 158 categorías, los investigadores estudiaron la representación demográfica de las personas en las imágenes para evaluar el nivel de sesgo en ImageNet y diseñar un enfoque para crear conjuntos de datos más justos. El contenido de ImageNet proviene de motores de búsqueda de imágenes como Flickr, ySe ha demostrado que los motores de búsqueda en general producen resultados que sobrerrepresentan a hombres, personas de piel clara y adultos de entre 18 y 40 años.
"La gente ha descubierto que las distribuciones de datos demográficos en los resultados de búsqueda de imágenes son muy sesgadas, y es por eso que la distribución en ImageNet también es sesgada", dijo Yang. "En este documento tratamos de entender cuán sesgada es, y tambiénproponer un método para equilibrar la distribución "
De los atributos protegidos por las leyes antidiscriminatorias de los EE. UU., Los investigadores consideraron los tres atributos que se pueden visualizar: color de piel, expresión de género y edad. A los trabajadores de MTurk se les pidió que anotaran cada atributo de cada persona en una imagen. Clasificaron el color de pielcomo claro, medio u oscuro, y edad como niño menor de 18 años, adulto 18-40, adulto 40-65 o adulto mayor de 65 años. Las clasificaciones de género incluyen masculino, femenino e inseguro, una forma de incluir a personas con diversas expresiones de género,así como anotar imágenes en las que el género no puede ser percibido a partir de pistas visuales como muchas imágenes de bebés o buzos.
Un análisis de las anotaciones mostró que, de manera similar a los resultados de búsqueda, el contenido de ImageNet refleja un sesgo considerable. Las personas anotadas como de piel oscura, mujeres y adultos mayores de 40 años estaban subrepresentadas en la mayoría de las categorías.
Aunque el proceso de anotación incluyó controles de calidad y requirió anotadores para llegar a un consenso, debido a la preocupación por el daño potencial de las anotaciones erróneas, los investigadores optaron por no publicar anotaciones demográficas para imágenes individuales. En su lugar, diseñaron una herramienta de interfaz web quepermite a los usuarios obtener un conjunto de imágenes que están equilibradas demográficamente de la manera que el usuario especifica. Por ejemplo, la colección completa de imágenes en la categoría "programador" puede incluir aproximadamente 90% de hombres y 10% de mujeres, mientras que en los Estados UnidosEl 20% de los programadores de computadoras son mujeres. Un investigador podría usar la nueva herramienta para recuperar un conjunto de imágenes de programadores que representan el 80% de hombres y el 20% de mujeres, o una división uniforme, según el propósito del investigador.
"No queremos decir cuál es la forma correcta de equilibrar la demografía, porque no es un tema muy sencillo", dijo Yang. "La distribución podría ser diferente en diferentes partes del mundo: la distribución de los colores de la pielen los EE. UU. es diferente que en los países de Asia, por ejemplo. Así que dejamos esa pregunta a nuestro usuario, y simplemente proporcionamos una herramienta para recuperar un subconjunto equilibrado de las imágenes ".
El equipo de ImageNet está trabajando actualmente en actualizaciones técnicas de su hardware y base de datos, además de implementar el filtrado de las categorías de personas y la herramienta de reequilibrio desarrollada en esta investigación. ImageNet pronto se relanzará con estas actualizaciones y con unSolicite comentarios de la comunidad de investigación de visión por computadora.
El estudiante de doctorado de Princeton Klint Qinami y el profesor asistente de ciencias de la computación Jia Deng fueron coautores del artículo junto con Yang, Li y Russakovsky. La investigación fue apoyada por la Fundación Nacional de Ciencias.
Fuente de la historia :
Materiales proporcionado por Universidad de Princeton, Escuela de Ingeniería . Original escrito por Molly Sharlach. Nota: El contenido puede ser editado por estilo y longitud.
Referencia del diario :
Cita esta página :