Los investigadores de la Universidad Estatal de Carolina del Norte han desarrollado una técnica que reduce el tiempo de entrenamiento para redes de aprendizaje profundo en más del 60 por ciento sin sacrificar la precisión, acelerando el desarrollo de nuevas aplicaciones de inteligencia artificial IA.
"Las redes de aprendizaje profundo están en el centro de las aplicaciones de IA utilizadas en todo, desde autos sin conductor hasta tecnologías de visión por computadora", dice Xipeng Shen, profesor de ciencias de la computación en NC State y coautor de un artículo sobre el trabajo.
"Uno de los mayores desafíos que enfrenta el desarrollo de nuevas herramientas de IA es la cantidad de tiempo y la potencia informática que se necesita para capacitar a las redes de aprendizaje profundo para identificar y responder a los patrones de datos que son relevantes para sus aplicaciones. Hemos surgidocon una manera de acelerar ese proceso, que llamamos reutilización adaptativa profunda. Hemos demostrado que puede reducir los tiempos de entrenamiento hasta en un 69 por ciento sin pérdida de precisión ".
Entrenar una red de aprendizaje profundo implica dividir una muestra de datos en trozos de puntos de datos consecutivos. Piense en una red diseñada para determinar si hay un peatón en una imagen determinada. El proceso comienza dividiendo una imagen digital en bloques de píxeles que sonadyacentes entre sí. Cada fragmento de datos se ejecuta a través de un conjunto de filtros computacionales. Los resultados se ejecutan a través de un segundo conjunto de filtros. Esto continúa iterativamente hasta que todos los datos se hayan ejecutado a través de todos los filtros, permitiendo que la redpara llegar a una conclusión sobre la muestra de datos.
Cuando este proceso se ha realizado para cada muestra de datos en un conjunto de datos, eso se llama una época. Para ajustar una red de aprendizaje profundo, es probable que la red atraviese el mismo conjunto de datos durante cientos de épocas. Ymuchos conjuntos de datos consisten en decenas de miles y millones de muestras de datos. Muchas iteraciones de muchos filtros que se aplican a una gran cantidad de datos significa que entrenar una red de aprendizaje profundo requiere mucha potencia informática.
El momento decisivo para el equipo de investigación de Shen llegó cuando se dio cuenta de que muchos de los fragmentos de datos en un conjunto de datos son similares entre sí. Por ejemplo, un parche de cielo azul en una imagen puede ser similar a un parche de cielo azul en otro lugaren la misma imagen o en un parche de cielo en otra imagen en el mismo conjunto de datos.
Al reconocer estos fragmentos de datos similares, una red de aprendizaje profundo podría aplicar filtros a un fragmento de datos y aplicar los resultados a todos los fragmentos de datos similares en el mismo conjunto, ahorrando mucha potencia informática.
"No solo pudimos demostrar que existen estas similitudes, sino que podemos encontrar estas similitudes para obtener resultados intermedios en cada paso del proceso", dice Lin Ning, estudiante de doctorado en NC State y autor principal de"Y pudimos maximizar esta eficiencia mediante la aplicación de un método llamado hashing sensible a la localidad".
Pero esto plantea dos preguntas adicionales. ¿Qué tan grande debe ser cada fragmento de datos? ¿Y qué umbral deben cumplir los fragmentos de datos para ser considerados "similares"?
Los investigadores descubrieron que el enfoque más eficiente era comenzar mirando fragmentos de datos relativamente grandes utilizando un umbral relativamente bajo para determinar la similitud. En épocas posteriores, los fragmentos de datos se hacen más pequeños y el umbral de similitud más estricto, mejorando el aprendizaje profundoprecisión de la red. Los investigadores diseñaron un algoritmo adaptativo que implementa automáticamente estos cambios incrementales durante el proceso de capacitación.
Para evaluar su nueva técnica, los investigadores la probaron usando tres redes de aprendizaje profundo y conjuntos de datos que son ampliamente utilizados como bancos de pruebas por investigadores de aprendizaje profundo: CifarNet usando Cifar10; AlexNet usando ImageNet; y VGG-19 usando ImageNet.
La reutilización adaptativa profunda redujo el tiempo de entrenamiento para AlexNet en un 69 por ciento; para VGG-19 en un 68 por ciento; y para CifarNet en un 63 por ciento, todo sin pérdida de precisión.
"Esto demuestra que la técnica reduce drásticamente los tiempos de entrenamiento", dice Hui Guan, un estudiante de doctorado en NC State y coautor del artículo. "También indica que cuanto más grande es la red, más Adaptive Deep Reusees capaz de reducir los tiempos de entrenamiento, ya que AlexNet y VGG-19 son sustancialmente más grandes que CifarNet ".
"Creemos que Adaptive Deep Reuse es una herramienta valiosa y esperamos trabajar con la industria y los socios de investigación para demostrar cómo se puede utilizar para avanzar en la IA", dice Shen.
El documento, "Adaptive Deep Reuse: Accelerating CNN Training on the Fly", se presentará en la 35ª Conferencia Internacional IEEE sobre Ingeniería de Datos, que se celebrará del 8 al 11 de abril en la RAE de Macao, China. El trabajo se realizó con el apoyo deNational Science Foundation con los números de subvención CCF-1525609, CNS-1717425 y CCF-1703487.
Fuente de la historia :
Materiales proporcionado por Universidad Estatal de Carolina del Norte . Original escrito por Matt Shipman. Nota: El contenido puede ser editado por estilo y longitud.
Cita esta página :