¿Qué pasaría si las computadoras pudieran reconocer objetos tan bien como el cerebro humano? Los ingenieros eléctricos de la Universidad de California en San Diego han dado un paso importante hacia ese objetivo al desarrollar un sistema de detección de peatones que funciona casi en tiempo real 2-4 cuadros por segundo y con mayor precisión cerca de la mitad del error en comparación con los sistemas existentes. La tecnología, que incorpora modelos de aprendizaje profundo, podría utilizarse en vehículos "inteligentes", robótica y sistemas de búsqueda de imágenes y videos.
"Nuestro objetivo es construir sistemas de visión por computadora que ayuden a las computadoras a comprender mejor el mundo que los rodea", dijo Nuno Vasconcelos, profesor de ingeniería eléctrica en la Escuela de Ingeniería Jacobs de UC San Diego, quien dirigió la investigación. Un gran objetivo es realvisión de tiempo, dice, especialmente para los sistemas de detección de peatones en autos sin conductor. Vasconcelos es un miembro afiliado del Centro de Computación Visual y el Instituto de Robótica Contextual, ambos en UC San Diego.
El nuevo algoritmo de detección de peatones desarrollado por Vasconcelos y su equipo combina una arquitectura tradicional de clasificación de visión por computadora, conocida como detección en cascada, con modelos de aprendizaje profundo.
Los sistemas de detección de peatones suelen descomponer una imagen en pequeñas ventanas que son procesadas por un clasificador que señala la presencia o ausencia de un peatón. Este enfoque es desafiante porque los peatones aparecen en diferentes tamaños, dependiendo de la distancia a la cámara yubicaciones dentro de una imagen. Normalmente, millones de ventanas deben ser inspeccionadas por fotogramas de video a velocidades que oscilan entre 5 y 30 fotogramas por segundo
En la detección en cascada, el detector funciona a lo largo de una serie de etapas. En las primeras etapas, el algoritmo identifica y descarta rápidamente ventanas que puede reconocer fácilmente que no contienen una persona como el cielo. Las siguientes etapas procesan las ventanasque son más difíciles de clasificar para el algoritmo, como los que contienen un árbol, que el algoritmo podría reconocer como características de persona forma, color, contornos, etc.. En las etapas finales, el algoritmo debe distinguir entre un peatóny objetos muy similares. Sin embargo, debido a que las etapas finales solo procesan unas pocas ventanas, la complejidad general es baja.
La detección en cascada tradicional se basa en "estudiantes débiles", que son clasificadores simples, para hacer el trabajo en cada etapa. Las primeras etapas usan un pequeño número de estudiantes débiles para rechazar las ventanas fáciles, mientras que las etapas posteriores dependen de un mayor número deestudiantes débiles para procesar las ventanas más difíciles. Si bien este método es rápido, no es lo suficientemente poderoso cuando llega a las etapas finales. Esto se debe a que los estudiantes débiles utilizados en todas las etapas de la cascada son idénticos. Entonces, aunque hay más clasificadores enEn las últimas etapas, no son necesariamente capaces de realizar una clasificación altamente compleja.
Modelos de aprendizaje profundo
Para abordar este problema, Vasconcelos y su equipo desarrollaron un algoritmo novedoso que incorpora modelos de aprendizaje profundo en las etapas finales de un detector en cascada. Los modelos de aprendizaje profundo son más adecuados para el reconocimiento de patrones complejos, que pueden realizar después de ser entrenados con cientos omiles de ejemplos, en este caso, imágenes que tienen o no tienen una persona. Sin embargo, los modelos de aprendizaje profundo son demasiado complejos para la implementación en tiempo real. Si bien funcionan bien para las etapas finales en cascada, son demasiado complejos paraser utilizado en los primeros.
La solución es una nueva arquitectura en cascada que combina clasificadores de diferentes familias: clasificadores simples alumnos débiles en las primeras etapas, clasificadores complejos modelos de aprendizaje profundo en las etapas posteriores. Esto no es trivial de lograr, señaló Vasconcelos, ya queEl algoritmo utilizado para aprender la cascada tiene que encontrar la combinación de estudiantes débiles que logre el equilibrio óptimo entre la precisión de detección y la complejidad para cada etapa de la cascada. En consecuencia, Vasconcelos y su equipo introdujeron una nueva formulación matemática para este problema, lo que resultó en unanuevo algoritmo para diseño en cascada.
"Ningún algoritmo anterior ha sido capaz de optimizar el equilibrio entre la precisión de detección y la velocidad para cascadas con etapas de complejidades tan diferentes. De hecho, estas son las primeras cascadas que incluyen etapas de aprendizaje profundo. Los resultados que estamos obteniendocon este nuevo algoritmo son sustancialmente mejores para la detección de peatones precisa y en tiempo real ", dijo Vasconcelos.
El algoritmo actualmente solo funciona para tareas de detección binaria, como la detección de peatones, pero los investigadores tienen el objetivo de extender la tecnología en cascada para detectar muchos objetos simultáneamente.
"Un enfoque para este problema es entrenar, por ejemplo, cinco detectores diferentes para reconocer cinco objetos diferentes. Pero queremos entrenar solo un detector para hacer esto. Desarrollar ese algoritmo es el próximo desafío", dijo Vasconcelos.
Fuente de la historia :
Materiales proporcionado por Universidad de California - San Diego . Nota: El contenido puede ser editado por estilo y longitud.
Cita esta página :