Los sistemas de aprendizaje automático están en todas partes. Predicen el clima, pronostican terremotos, proporcionan recomendaciones basadas en los libros y películas que nos gustan e incluso aplican los frenos en nuestros automóviles cuando no estamos prestando atención.
Para hacer esto, los programas de software en estos sistemas calculan las relaciones predictivas a partir de cantidades masivas de datos. Los sistemas identifican estas relaciones predictivas utilizando algoritmos avanzados, un conjunto de reglas para resolver problemas matemáticos, y "datos de entrenamiento".luego se utilizó para construir los modelos y características que permiten que un sistema determine el último best-seller que desea leer o para predecir la probabilidad de lluvia la próxima semana.
Este intrincado proceso significa que una pieza de datos sin procesar a menudo pasa por una serie de cálculos en un sistema. Los cálculos y la información derivados por el sistema de esos datos juntos forman una red de propagación compleja llamada "linaje" de los datos. El término eraacuñado por Yinzhi Cao, profesor asistente de ciencias de la computación e ingeniería, y su colega, Junfeng Yang de la Universidad de Columbia, quienes son pioneros en un enfoque novedoso para hacer olvidar los sistemas de aprendizaje.
Considerando lo importante que es este concepto para aumentar la seguridad y proteger la privacidad, Cao y Yang creen que la adopción fácil de los sistemas de olvido será cada vez más demandada. Los dos investigadores han desarrollado una forma de hacerlo más rápido y más eficazmente de lo que se puede hacer usandométodos actuales.
Su concepto, llamado "desaprendizaje automático", es tan prometedor que Cao y Yang han recibido una subvención de cuatro años y $ 1.2 millones de la Fundación Nacional de Ciencias para desarrollar el enfoque.
"Los sistemas de olvido efectivos deben ser capaces de permitir a los usuarios especificar los datos para olvidar con diferentes niveles de granularidad", dijo Cao, investigador principal del proyecto. "Estos sistemas deben eliminar los datos y deshacer sus efectos para que todas las operaciones futurasejecutar como si los datos nunca existieran "
Mayor seguridad y protección de la privacidad
Hay una serie de razones por las cuales un usuario individual o proveedor de servicios puede desear que un sistema olvide los datos y su linaje completo. La privacidad es una.
Después de que Facebook cambió su política de privacidad, muchos usuarios eliminaron sus cuentas y los datos asociados. El incidente de piratería de fotos de iCloud en 2014, en el que se accedió a cientos de fotos privadas de celebridades a través del conjunto de servicios en la nube de Apple, condujo a la enseñanza de artículos en línealos usuarios cómo eliminar por completo las fotos de iOS, incluidas las copias de seguridad. Una nueva investigación ha revelado que los modelos de aprendizaje automático para la dosificación de medicamentos personalizados filtran los marcadores genéticos de los pacientes. Solo un pequeño conjunto de estadísticas sobre genética y enfermedades son suficientes para que los piratas informáticos identifiquen a individuos específicos, a pesar del encubrimientomecanismos.
Naturalmente, los usuarios descontentos con estos riesgos recién descubiertos quieren que sus datos y su influencia en los modelos y estadísticas se olviden por completo.
La seguridad es otra razón. Considere los sistemas de detección de intrusos basados en anomalías utilizados para detectar software malicioso. Para identificar positivamente un ataque, se debe enseñar al sistema a reconocer la actividad normal del sistema. Por lo tanto, la seguridad de estos sistemas depende del modelo decomportamientos normales extraídos de los datos de entrenamiento. Al contaminar los datos de entrenamiento, los atacantes contaminan el modelo y comprometen la seguridad. Una vez que se identifican los datos contaminados, el sistema debe olvidar por completo los datos y su linaje para recuperar la seguridad.
Los sistemas de aprendizaje ampliamente utilizados, como la Búsqueda de Google, en su mayor parte, solo pueden olvidar los datos sin procesar de un usuario, y no el linaje de los datos, previa solicitud. Esto es problemático para los usuarios que desean asegurarse de que cualquier rastro delos datos no deseados se eliminan por completo, y también es un desafío para los proveedores de servicios que tienen fuertes incentivos para cumplir con las solicitudes de eliminación de datos y conservar la confianza del cliente.
Los proveedores de servicios deberán poder eliminar cada vez más los datos y su linaje por completo para cumplir con las leyes que rigen la privacidad de los datos del usuario, como el fallo del "derecho al olvido" emitido en 2014 por el tribunal superior de la Unión Europea. En octubre de 2014,Google eliminó más de 170,000 enlaces para cumplir con el fallo, que afirmaba el derecho de los usuarios a controlar lo que aparece cuando se buscan sus nombres. En julio de 2015, Google dijo que había recibido más de un cuarto de millón de solicitudes.
Desglose de dependencias
Partiendo del trabajo que se presentó en el Simposio IEEE 2015 y luego se publicó, el método de "desaprendizaje automático" de Cao y Yang se basa en el hecho de que la mayoría de los sistemas de aprendizaje se pueden convertir en una forma que se puede actualizar gradualmente sin un costoso reciclaje desde cero.
Su enfoque introduce una capa de un pequeño número de sumas entre el algoritmo de aprendizaje y los datos de entrenamiento para eliminar la dependencia entre sí. Por lo tanto, los algoritmos de aprendizaje dependen solo de las sumas y no de datos individuales. Usando este método, desaprender undatos y su linaje ya no requieren la reconstrucción de los modelos y las características que predicen las relaciones entre los datos. Simplemente volver a calcular un pequeño número de sumas eliminaría los datos y su linaje por completo, y mucho más rápido que al volver a capacitar el sistema desde cero.
Cao cree que él y Yang son los primeros en establecer la conexión entre el desaprendizaje y la forma de resumen.
Y funciona. Cao y Yang probaron su enfoque de desaprendizaje en cuatro sistemas diversos del mundo real: LensKit, un sistema de recomendación de código abierto; Zozzle, un detector de malware JavaScript de código cerrado; un filtro de spam OSN de código abierto;y PJScan, un detector de malware de PDF de código abierto.
El éxito de estas evaluaciones iniciales ha sentado las bases para las próximas fases del proyecto, que incluyen la adaptación de la técnica a otros sistemas y la creación de desaprendizaje automático verificable para probar estadísticamente si el desaprendizaje realmente reparó un sistema o eliminó por completo los datos no deseados.
En la introducción de su artículo, Cao y Yang dicen que el "desaprendizaje de máquinas" podría desempeñar un papel clave en la mejora de la seguridad y la privacidad y en nuestro futuro económico :
"Prevemos la fácil adopción de los sistemas de olvido porque benefician tanto a los usuarios como a los proveedores de servicios. Con la flexibilidad de solicitar que los sistemas olviden los datos, los usuarios tienen más control sobre sus datos, por lo que están más dispuestos a compartir datos con los sistemas. Máslos datos también benefician a los proveedores de servicios, porque tienen más oportunidades de ganancias y menos riesgos legales.
"Visualizamos sistemas de olvido que juegan un papel crucial en los mercados de datos emergentes donde los usuarios intercambian datos por dinero, servicios u otros datos porque el mecanismo de olvido permite al usuario cancelar limpiamente una transacción de datos o alquilar los derechos de uso de sus datossin renunciar a la propiedad "
Fuente de la historia :
Materiales proporcionado por Universidad de Lehigh . Original escrito por Lori Friedman. Nota: El contenido puede ser editado por estilo y longitud.
Cite esta página :