Noticias de ciencia

de organizaciones de investigación

Nueva técnica elimina datos no deseados

Fecha :: 17 de marzo de 2016
Fuente :: Universidad de Lehigh
Resumen :: Los sistemas de aprendizaje automático están en todas partes. Predicen el clima, pronostican terremotos, proporcionan recomendaciones basadas en los libros y películas que nos gustan e incluso aplican los frenos en nuestros automóviles cuando no estamos prestando atención. Para hacer esto, los programas de software enestos sistemas calculan las relaciones predictivas a partir de cantidades masivas de datos. Dos investigadores han desarrollado una forma de hacerlo más rápido y más eficazmente de lo que se puede hacer con los métodos actuales.
Compartir :

HISTORIA COMPLETA

Los sistemas de aprendizaje automático están en todas partes. Predicen el clima, pronostican terremotos, proporcionan recomendaciones basadas en los libros y películas que nos gustan e incluso aplican los frenos en nuestros automóviles cuando no estamos prestando atención.

anuncio

Para hacer esto, los programas de software en estos sistemas calculan las relaciones predictivas a partir de cantidades masivas de datos. Los sistemas identifican estas relaciones predictivas utilizando algoritmos avanzados, un conjunto de reglas para resolver problemas matemáticos, y "datos de entrenamiento".luego se utilizó para construir los modelos y características que permiten que un sistema determine el último best-seller que desea leer o para predecir la probabilidad de lluvia la próxima semana.

Este intrincado proceso significa que una pieza de datos sin procesar a menudo pasa por una serie de cálculos en un sistema. Los cálculos y la información derivados por el sistema de esos datos juntos forman una red de propagación compleja llamada "linaje" de los datos. El término eraacuñado por Yinzhi Cao, profesor asistente de ciencias de la computación e ingeniería, y su colega, Junfeng Yang de la Universidad de Columbia, quienes son pioneros en un enfoque novedoso para hacer olvidar los sistemas de aprendizaje.

Considerando lo importante que es este concepto para aumentar la seguridad y proteger la privacidad, Cao y Yang creen que la adopción fácil de los sistemas de olvido será cada vez más demandada. Los dos investigadores han desarrollado una forma de hacerlo más rápido y más eficazmente de lo que se puede hacer usandométodos actuales.

Su concepto, llamado "desaprendizaje automático", es tan prometedor que Cao y Yang han recibido una subvención de cuatro años y $ 1.2 millones de la Fundación Nacional de Ciencias para desarrollar el enfoque.

"Los sistemas de olvido efectivos deben ser capaces de permitir a los usuarios especificar los datos para olvidar con diferentes niveles de granularidad", dijo Cao, investigador principal del proyecto. "Estos sistemas deben eliminar los datos y deshacer sus efectos para que todas las operaciones futurasejecutar como si los datos nunca existieran "

Mayor seguridad y protección de la privacidad

anuncio

Hay una serie de razones por las cuales un usuario individual o proveedor de servicios puede desear que un sistema olvide los datos y su linaje completo. La privacidad es una.

Después de que Facebook cambió su política de privacidad, muchos usuarios eliminaron sus cuentas y los datos asociados. El incidente de piratería de fotos de iCloud en 2014, en el que se accedió a cientos de fotos privadas de celebridades a través del conjunto de servicios en la nube de Apple, condujo a la enseñanza de artículos en línealos usuarios cómo eliminar por completo las fotos de iOS, incluidas las copias de seguridad. Una nueva investigación ha revelado que los modelos de aprendizaje automático para la dosificación de medicamentos personalizados filtran los marcadores genéticos de los pacientes. Solo un pequeño conjunto de estadísticas sobre genética y enfermedades son suficientes para que los piratas informáticos identifiquen a individuos específicos, a pesar del encubrimientomecanismos.

Naturalmente, los usuarios descontentos con estos riesgos recién descubiertos quieren que sus datos y su influencia en los modelos y estadísticas se olviden por completo.

La seguridad es otra razón. Considere los sistemas de detección de intrusos basados en anomalías utilizados para detectar software malicioso. Para identificar positivamente un ataque, se debe enseñar al sistema a reconocer la actividad normal del sistema. Por lo tanto, la seguridad de estos sistemas depende del modelo decomportamientos normales extraídos de los datos de entrenamiento. Al contaminar los datos de entrenamiento, los atacantes contaminan el modelo y comprometen la seguridad. Una vez que se identifican los datos contaminados, el sistema debe olvidar por completo los datos y su linaje para recuperar la seguridad.

Los sistemas de aprendizaje ampliamente utilizados, como la Búsqueda de Google, en su mayor parte, solo pueden olvidar los datos sin procesar de un usuario, y no el linaje de los datos, previa solicitud. Esto es problemático para los usuarios que desean asegurarse de que cualquier rastro delos datos no deseados se eliminan por completo, y también es un desafío para los proveedores de servicios que tienen fuertes incentivos para cumplir con las solicitudes de eliminación de datos y conservar la confianza del cliente.

anuncio

Los proveedores de servicios deberán poder eliminar cada vez más los datos y su linaje por completo para cumplir con las leyes que rigen la privacidad de los datos del usuario, como el fallo del "derecho al olvido" emitido en 2014 por el tribunal superior de la Unión Europea. En octubre de 2014,Google eliminó más de 170,000 enlaces para cumplir con el fallo, que afirmaba el derecho de los usuarios a controlar lo que aparece cuando se buscan sus nombres. En julio de 2015, Google dijo que había recibido más de un cuarto de millón de solicitudes.

Desglose de dependencias

Partiendo del trabajo que se presentó en el Simposio IEEE 2015 y luego se publicó, el método de "desaprendizaje automático" de Cao y Yang se basa en el hecho de que la mayoría de los sistemas de aprendizaje se pueden convertir en una forma que se puede actualizar gradualmente sin un costoso reciclaje desde cero.

Su enfoque introduce una capa de un pequeño número de sumas entre el algoritmo de aprendizaje y los datos de entrenamiento para eliminar la dependencia entre sí. Por lo tanto, los algoritmos de aprendizaje dependen solo de las sumas y no de datos individuales. Usando este método, desaprender undatos y su linaje ya no requieren la reconstrucción de los modelos y las características que predicen las relaciones entre los datos. Simplemente volver a calcular un pequeño número de sumas eliminaría los datos y su linaje por completo, y mucho más rápido que al volver a capacitar el sistema desde cero.

Cao cree que él y Yang son los primeros en establecer la conexión entre el desaprendizaje y la forma de resumen.

Y funciona. Cao y Yang probaron su enfoque de desaprendizaje en cuatro sistemas diversos del mundo real: LensKit, un sistema de recomendación de código abierto; Zozzle, un detector de malware JavaScript de código cerrado; un filtro de spam OSN de código abierto;y PJScan, un detector de malware de PDF de código abierto.

El éxito de estas evaluaciones iniciales ha sentado las bases para las próximas fases del proyecto, que incluyen la adaptación de la técnica a otros sistemas y la creación de desaprendizaje automático verificable para probar estadísticamente si el desaprendizaje realmente reparó un sistema o eliminó por completo los datos no deseados.

En la introducción de su artículo, Cao y Yang dicen que el "desaprendizaje de máquinas" podría desempeñar un papel clave en la mejora de la seguridad y la privacidad y en nuestro futuro económico :

"Prevemos la fácil adopción de los sistemas de olvido porque benefician tanto a los usuarios como a los proveedores de servicios. Con la flexibilidad de solicitar que los sistemas olviden los datos, los usuarios tienen más control sobre sus datos, por lo que están más dispuestos a compartir datos con los sistemas. Máslos datos también benefician a los proveedores de servicios, porque tienen más oportunidades de ganancias y menos riesgos legales.

"Visualizamos sistemas de olvido que juegan un papel crucial en los mercados de datos emergentes donde los usuarios intercambian datos por dinero, servicios u otros datos porque el mecanismo de olvido permite al usuario cancelar limpiamente una transacción de datos o alquilar los derechos de uso de sus datossin renunciar a la propiedad "

marque la diferencia: oportunidad patrocinada

Fuente de la historia :

Materiales proporcionado por Universidad de Lehigh . Original escrito por Lori Friedman. Nota: El contenido puede ser editado por estilo y longitud.

Cite esta página :

Universidad de Lehigh. "Nueva técnica elimina datos no deseados". ScienceDaily. ScienceDaily, 17 de marzo de 2016. .

Universidad de Lehigh. 2016, 17 de marzo. La nueva técnica borra los datos no deseados. ScienceDaily . Recuperado el 6 de julio de 2020 de www.science-things.com/releases/2016/03/160317152636.htm

Universidad de Lehigh. "Nueva técnica elimina datos no deseados". ScienceDaily. Www.science-things.com/releases/2016/03/160317152636.htm consultado el 6 de julio de 2020.

TEMAS RELACIONADOS
- Computadoras y matemáticas

anuncio

TÉRMINOS RELACIONADOS

HISTORIAS RELACIONADAS

DE ALREDEDOR DE LA WEB

A continuación hay artículos relevantes que pueden interesarle. ScienceDaily comparte enlaces con publicaciones académicas en el red TrendMD y gana ingresos de terceros anunciantes, donde se indique.

1

2

Nueva técnica elimina datos no deseados

1

2

3

4

5

1

2

3

4

5

Un misterio cósmico: el telescopio de ESO captura la desaparición de una estrella masiva

Para encontrar agujeros negros gigantes, comience con Júpiter

Mayor concentración de metal en los cráteres de la luna proporciona nuevas ideas sobre su origen

El mejor material para las mascarillas caseras puede ser una combinación de dos telas

¿Por qué las plantas son verdes?

matar el coronavirus con un dispositivo portátil de luz ultravioleta puede ser factible

La física cuántica proporciona una forma de ocultar la ignorancia

¿Cómo corre el riesgo de contraer un virus en un avión?

Quadriplegics puede operar una silla de ruedas eléctrica con sistema de transmisión de lengua

Scientific 'Red Flag' revela nuevas pistas sobre nuestra galaxia

Baliza del Universo Temprano

Mayor concentración de metal en los cráteres de la luna proporciona nuevas ideas sobre su origen

El material flexible muestra el potencial de uso en telas para calentar, enfriar

El material de blindaje más ligero del mundo

los robots suaves inspirados en medusas pueden superar a sus contrapartes naturales

La investigación refleja cómo la IA ve a través del espejo

Nuevo sistema combina videos de teléfonos inteligentes para crear visualizaciones 4D

Coordinación de comportamientos complejos entre cientos de robots