La inteligencia artificial se ha convertido en un foco de ciertas preocupaciones éticas, pero también tiene algunos problemas importantes de sostenibilidad.
En junio pasado, investigadores de la Universidad de Massachusetts en Amherst publicaron un sorprendente informe que estima que la cantidad de energía requerida para entrenar y buscar una determinada arquitectura de red neuronal implica las emisiones de aproximadamente 626,000 libras de dióxido de carbono. Eso es equivalente a casi cinco veceslas emisiones de por vida del automóvil estadounidense promedio, incluida su fabricación.
Este problema se vuelve aún más grave en la fase de implementación del modelo, donde las redes neuronales profundas deben implementarse en diversas plataformas de hardware, cada una con diferentes propiedades y recursos computacionales.
Los investigadores del MIT han desarrollado un nuevo sistema automatizado de IA para entrenar y ejecutar ciertas redes neuronales. Los resultados indican que, al mejorar la eficiencia computacional del sistema de algunas maneras clave, el sistema puede reducir las libras de emisiones de carbono involucradas, enalgunos casos, hasta dígitos triples bajos.
El sistema de los investigadores, al que llaman una red de una vez por todas, entrena una gran red neuronal que comprende muchas subredes preentrenadas de diferentes tamaños que pueden adaptarse a diversas plataformas de hardware sin necesidad de reentrenamiento. Esto reduce drásticamente la energía que generalmente se necesita para entrenarcada red neuronal especializada para nuevas plataformas, que puede incluir miles de millones de dispositivos de Internet de las cosas IoT. Usando el sistema para entrenar un modelo de visión por computadora, estimaron que el proceso requería aproximadamente 1 / 1,300 de las emisiones de carbono en comparación con el estado actualenfoques de búsqueda de arquitectura neuronal de última generación, al tiempo que reduce el tiempo de inferencia en 1.5-2.6 veces.
"El objetivo es redes neuronales más pequeñas y verdes", dice Song Han, profesor asistente en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación. "La búsqueda de arquitecturas de redes neuronales eficientes ha tenido hasta ahora una enorme huella de carbono. Pero redujimos esa huella".por órdenes de magnitud con estos nuevos métodos "
El trabajo se llevó a cabo en Satori, un eficiente clúster informático donado al MIT por IBM que es capaz de realizar 2 billones de cálculos por segundo. El documento se presentará la próxima semana en la Conferencia Internacional sobre Representaciones de Aprendizaje. Unirse a Han en el papelson cuatro estudiantes de pregrado y posgrado de EECS, MIT-IBM Watson AI Lab y Shanghai Jiao Tong University.
Creando una red "de una vez por todas"
Los investigadores construyeron el sistema en un avance reciente de IA llamado AutoML para aprendizaje automático de máquinas, que elimina el diseño manual de la red. Las redes neuronales buscan automáticamente espacios masivos de diseño para arquitecturas de red adaptadas, por ejemplo, a plataformas de hardware específicas. Pero todavía hayun problema de eficiencia en la capacitación: cada modelo debe seleccionarse y luego capacitarse desde cero para su arquitectura de plataforma
"¿Cómo capacitamos a todas esas redes de manera eficiente para un espectro tan amplio de dispositivos, desde un dispositivo IoT de $ 10 a un teléfono inteligente de $ 600? Dada la diversidad de dispositivos IoT, el costo de cómputo de la búsqueda de arquitectura neural explotará", dice Han.
Los investigadores inventaron un sistema AutoML que entrena solo una única red grande "de una vez por todas" OFA que sirve como una red "madre", anidando un número extremadamente alto de subredes que se activan escasamente desde la red madre. OFA comparte todos sus pesos aprendidos con todas las subredes, lo que significa que vienen esencialmente pre-entrenados. Por lo tanto, cada subred puede operar de forma independiente en el momento de la inferencia sin volver a entrenar.
El equipo capacitó a una red neuronal convolucional OFA CNN, comúnmente utilizada para tareas de procesamiento de imágenes, con configuraciones arquitectónicas versátiles, que incluyen diferentes números de capas y "neuronas", diversos tamaños de filtro y diversas resoluciones de imagen de entrada.En una plataforma específica, el sistema utiliza la OFA como el espacio de búsqueda para encontrar la mejor subred basada en las compensaciones de precisión y latencia que se correlacionan con los límites de potencia y velocidad de la plataforma. Para un dispositivo IoT, por ejemplo, el sistema encontrará una subred más pequeñaPara los teléfonos inteligentes, seleccionará subredes más grandes, pero con diferentes estructuras dependiendo de la vida útil de la batería individual y los recursos de computación. OFA desacopla la capacitación en modelos y la búsqueda de arquitectura, y distribuye el costo de capacitación única en muchas plataformas de hardware de inferencia y limitaciones de recursos.
Esto se basa en un algoritmo de "reducción progresiva" que entrena eficientemente la red OFA para admitir todas las subredes simultáneamente. Comienza con el entrenamiento de la red completa con el tamaño máximo, luego reduce progresivamente los tamaños de la red para incluir subredes más pequeñas.Las subredes más pequeñas se entrenan con la ayuda de grandes subredes para crecer juntas. Al final, todas las subredes con diferentes tamaños son compatibles, lo que permite una especialización rápida basada en los límites de potencia y velocidad de la plataforma. Es compatible con muchos dispositivos de hardware con un costo de capacitación cero cuandoagregar un nuevo dispositivo.
En total, una OFA, según los investigadores, puede comprender más de 10 quintillones, es decir, 1 seguido de 19 ceros, configuraciones arquitectónicas, que cubren probablemente todas las plataformas que se hayan necesitado. Pero entrenar la OFA y buscarla termina estando lejosmás eficiente que pasar horas entrenando cada red neuronal por plataforma. Además, OFA no compromete la precisión o la eficiencia de inferencia. En cambio, proporciona la precisión de ImageNet de última generación en dispositivos móviles. Y, en comparación con el estado del arteLos investigadores dicen que los modelos CNN líderes en la industria del arte OFA proporcionan una aceleración de 1.5-2.6 veces, con una precisión superior.
"Esa es una tecnología innovadora", dice Han. "Si queremos ejecutar una IA poderosa en dispositivos de consumo, tenemos que descubrir cómo reducir la IA al tamaño".
"El modelo es realmente compacto. Estoy muy emocionado de ver que OFA puede seguir empujando el límite del aprendizaje profundo eficiente en dispositivos de borde", dice Chuang Gan, investigador del MIT-IBM Watson AI Lab y coautor delpapel.
"Para que el progreso rápido en IA continúe, necesitamos reducir su impacto ambiental", dice John Cohn, miembro de IBM y miembro del MIT-IBM Watson AI Lab. "La ventaja de desarrollar métodos para hacer modelos de IA más pequeñosy más eficiente es que los modelos también pueden funcionar mejor "
Fuente de la historia :
Materiales proporcionado por Instituto de Tecnología de Massachusetts . Original escrito por Rob Matheson. Nota: El contenido puede ser editado por estilo y longitud.
Cita esta página :