Tres programas de análisis facial lanzados comercialmente de las principales empresas de tecnología demuestran sesgos de género y de tipo de piel, según un nuevo artículo que los investigadores del MIT y la Universidad de Stanford presentarán a finales de este mes en la Conferencia sobre Equidad, Responsabilidad y Transparencia.
En los experimentos de los investigadores, las tasas de error de los tres programas para determinar el sexo de los hombres de piel clara nunca fueron peores del 0,8 por ciento. Sin embargo, para las mujeres de piel más oscura, las tasas de error se dispararon, a más del 20 por ciento enun caso y más del 34 por ciento en los otros dos.
Los hallazgos plantean preguntas sobre cómo se entrenan y evalúan las redes neuronales actuales, que aprenden a realizar tareas computacionales mediante la búsqueda de patrones en enormes conjuntos de datos. Por ejemplo, según el documento, los investigadores de una importante empresa de tecnología de EE. UU. Afirmaron una precisióntasa de más del 97 por ciento para un sistema de reconocimiento facial que habían diseñado. Pero el conjunto de datos utilizado para evaluar su desempeño era más del 77 por ciento de hombres y más del 83 por ciento de blancos.
"Lo que es realmente importante aquí es el método y cómo ese método se aplica a otras aplicaciones", dice Joy Buolamwini, investigadora del grupo Civic Media del MIT Media Lab y primera autora del nuevo artículo. "Las mismas técnicas centradas en datos quese pueden usar para tratar de determinar el género de alguien. También se usan para identificar a una persona cuando buscas a un sospechoso de un delito o para desbloquear tu teléfono. Y no se trata solo de la visión por computadora. Tengo muchas esperanzas de que esto impulse más trabajoen observar [otras] disparidades ".
Buolamwini está acompañado en el artículo por Timnit Gebru, quien era un estudiante graduado en Stanford cuando se terminó el trabajo y ahora es un postdoctorado en Microsoft Research.
Descubrimientos fortuitos
Los tres programas que investigaron Buolamwini y Gebru eran sistemas de análisis facial de propósito general, que podían usarse para hacer coincidir rostros en diferentes fotos, así como para evaluar características como el género, la edad y el estado de ánimo. Los tres sistemas trataban la clasificación de génerocomo una decisión binaria, masculina o femenina, lo que hizo que su desempeño en esa tarea fuera particularmente fácil de evaluar estadísticamente. Pero los mismos tipos de sesgos probablemente también afecten el desempeño de los programas en otras tareas.
De hecho, fue el descubrimiento casual de un aparente sesgo en el seguimiento facial por parte de uno de los programas lo que impulsó la investigación de Buolamwini en primer lugar.
Hace varios años, como estudiante de posgrado en el Media Lab, Buolamwini estaba trabajando en un sistema que llamó Upbeat Walls, una instalación interactiva de arte multimedia que permitía a los usuarios controlar patrones de colores proyectados en una superficie reflectante moviendo la cabeza.rastrear los movimientos del usuario, el sistema utilizó un programa comercial de análisis facial.
El equipo que reunió Buolamwini para trabajar en el proyecto era étnicamente diverso, pero los investigadores descubrieron que, cuando llegó el momento de presentar el dispositivo en público, tenían que confiar en uno de los miembros del equipo de piel más clara para demostrarlo.El sistema simplemente no parecía funcionar de manera confiable con usuarios de piel más oscura.
Curiosamente, Buolamwini, que es negra, comenzó a enviar fotos de sí misma a programas comerciales de reconocimiento facial. En varios casos, los programas no reconocieron que las fotos presentaran un rostro humano. Cuando lo hicieron, clasificaron erróneamente el género de Buolamwini..
estándares cuantitativos
Para comenzar a investigar los sesgos de los programas de manera sistemática, Buolamwini primero reunió un conjunto de imágenes en las que las mujeres y las personas de piel oscura están mucho mejor representadas que en los conjuntos de datos que se suelen utilizar para evaluar los sistemas de análisis facial. El conjunto finalcontenía más de 1200 imágenes.
A continuación, trabajó con un cirujano dermatológico para codificar las imágenes de acuerdo con la escala de tonos de piel de Fitzpatrick, una escala de seis puntos, de claro a oscuro, desarrollada originalmente por dermatólogos como un medio para evaluar el riesgo de quemaduras solares.
Luego aplicó tres sistemas comerciales de análisis facial de las principales empresas de tecnología a su conjunto de datos recién construido. En los tres, las tasas de error para la clasificación de género fueron consistentemente más altas para las mujeres que para los hombres, y para los sujetos de piel más oscura quepara sujetos de piel más clara.
Para las mujeres de piel más oscura, aquellas a las que se les asignaron puntuaciones de IV, V o VI en la escala de Fitzpatrick, las tasas de error fueron del 20,8 por ciento, 34,5 por ciento y 34,7. Pero con dos de los sistemas, las tasas de error para elLas mujeres de piel más oscura en el conjunto de datos, aquellas a las que se les asignó una puntuación de VI, estaban peor aún: 46,5 por ciento y 46,8 por ciento. Esencialmente, para esas mujeres, el sistema podría haber estado adivinando el género al azar.
"Fallar en uno de cada tres, en un sistema comercial, en algo que se ha reducido a una tarea de clasificación binaria, debe preguntarse, ¿se habría permitido eso si esas tasas de fallas estuvieran en un subgrupo diferente?", Dice Buolamwini."La otra gran lección ... es que nuestros puntos de referencia, los estándares por los que medimos el éxito, pueden darnos una falsa sensación de progreso".
Fuente de la historia :
Materiales proporcionado por Instituto de Tecnología de Massachusetts . Nota: el contenido se puede editar por estilo y longitud.
cite esta página :