Un nuevo estudio realizado por investigadores del MIT encuentra que la creciente práctica de compilar conjuntos de datos masivos y anónimos sobre los patrones de movimiento de las personas es un arma de doble filo: si bien puede proporcionar información profunda sobre el comportamiento humano para la investigación, también podría poner los datos privados de las personas enriesgo.
Las empresas, los investigadores y otras entidades están comenzando a recopilar, almacenar y procesar datos anónimos que contienen "sellos de ubicación" coordenadas geográficas y marcas de tiempo de los usuarios. Los datos se pueden obtener de registros de teléfonos móviles, transacciones con tarjeta de crédito, públicotarjetas inteligentes de transporte, cuentas de Twitter y aplicaciones móviles. La fusión de esos conjuntos de datos podría proporcionar una gran información sobre cómo viajan los humanos, por ejemplo, para optimizar el transporte y la planificación urbana, entre otras cosas.
Pero con la gran cantidad de datos vienen grandes problemas de privacidad: los sellos de ubicación son extremadamente específicos para las personas y se pueden usar con fines nefastos. Investigaciones recientes han demostrado que, dados solo unos pocos puntos seleccionados al azar en los conjuntos de datos de movilidad, alguien podría identificar y aprender información confidencialsobre individuos. Con los conjuntos de datos de movilidad combinados, esto se vuelve aún más fácil: un agente podría hacer coincidir las trayectorias de los usuarios en datos anonimizados de un conjunto de datos, con datos desanonimizados en otro, para desenmascarar los datos anonimizados.
En un artículo publicado hoy en Transacciones IEEE en Big Data , los investigadores del MIT muestran cómo esto puede suceder en el primer análisis de la llamada "compatibilidad" del usuario en dos conjuntos de datos a gran escala de Singapur, uno de un operador de red móvil y otro de un sistema de transporte local.
Los investigadores usan un modelo estadístico que rastrea los sellos de ubicación de los usuarios en ambos conjuntos de datos y proporciona una probabilidad de que los puntos de datos en ambos conjuntos provengan de la misma persona. En experimentos, los investigadores encontraron que el modelo podría coincidir con alrededor del 17 por ciento de los individuos en unoEl valor de la semana de datos, y más del 55 por ciento de las personas después de un mes de recopilación de datos. El trabajo demuestra una manera eficiente y escalable para hacer coincidir las trayectorias de movilidad en los conjuntos de datos, lo que puede ser de gran ayuda para la investigación. Pero, advierten los investigadores, tales procesospuede aumentar la posibilidad de desanonimizar datos de usuarios reales.
"Como investigadores, creemos que trabajar con conjuntos de datos a gran escala puede permitir descubrir ideas sin precedentes sobre la sociedad humana y la movilidad, lo que nos permite planificar mejor las ciudades. Sin embargo, es importante mostrar si la identificación es posible, para que las personas puedan estar al tantode los riesgos potenciales de compartir datos de movilidad ", dice Daniel Kondor, un postdoc en el Grupo de Movilidad Urbana Futura de la Alianza Singapur-MIT para Investigación y Tecnología.
"Al publicar los resultados, y, en particular, las consecuencias de desanonimizar los datos, nos sentimos un poco como hackers de 'sombrero blanco' o 'éticos'", agrega el coautor Carlo Ratti, profesor de la práctica enDepartamento de Estudios y Planificación Urbana del MIT y director del Laboratorio de la Ciudad Senseable del MIT. "Sentimos que era importante advertir a la gente sobre estas nuevas posibilidades [de fusión de datos] y [considerar] cómo podríamos regularla".
Eliminar falsos positivos
Para comprender cómo funcionan los sellos de ubicación coincidentes y la posible desanonimización, considere este escenario: "Estuve en la isla de Sentosa en Singapur hace dos días, vine ayer al aeropuerto de Dubai y hoy estoy en la playa de Jumeirah en Dubai. Es muy poco probable que otra personala trayectoria se ve exactamente igual. En resumen, si alguien tiene la información anónima de mi tarjeta de crédito, y tal vez mis datos de ubicación abiertos de Twitter, podrían desanonimizar los datos de mi tarjeta de crédito ", dice Ratti.
Existen modelos similares para evaluar la desanonimización en los datos. Pero aquellos usan enfoques computacionalmente intensivos para la reidentificación, lo que significa fusionar datos anónimos con datos públicos para identificar individuos específicos. Estos modelos solo han funcionado en conjuntos de datos limitados. En cambio, los investigadores del MIT utilizaron unEnfoque estadístico más simple, que mide la probabilidad de falsos positivos, para predecir eficientemente la compatibilidad entre los puntajes de los usuarios en conjuntos de datos masivos.
En su trabajo, los investigadores compilaron dos conjuntos de datos anónimos de "baja densidad", unos pocos registros por día, sobre el uso de teléfonos móviles y el transporte personal en Singapur, registrados durante una semana en 2011. Los datos móviles provienen de un granoperador de red móvil y consta de marcas de tiempo y coordenadas geográficas en más de 485 millones de registros de más de 2 millones de usuarios. Los datos de transporte contenían más de 70 millones de registros con marcas de tiempo para personas que se desplazan por la ciudad.
La probabilidad de que un usuario determinado tenga registros en ambos conjuntos de datos aumentará junto con el tamaño de los conjuntos de datos combinados, pero también lo hará la probabilidad de falsos positivos. El modelo de los investigadores selecciona un usuario de un conjunto de datos y encuentra un usuario del otroconjunto de datos con un alto número de sellos de ubicación coincidentes. En pocas palabras, a medida que aumenta el número de puntos coincidentes, la probabilidad de una coincidencia de falsos positivos disminuye. Después de hacer coincidir un cierto número de puntos a lo largo de una trayectoria, el modelo descarta la posibilidad deser un falso positivo
Centrándose en los usuarios típicos, estimaron una tasa de éxito de compatibilidad del 17 por ciento durante una semana de datos compilados, y alrededor del 55 por ciento durante cuatro semanas. Esa estimación salta a aproximadamente el 95 por ciento con los datos compilados durante 11 semanas.
Los investigadores también estimaron cuánta actividad se necesita para igualar a la mayoría de los usuarios durante una semana. Al observar a los usuarios con entre 30 y 49 registros de transporte personal, y alrededor de 1,000 registros móviles, estimaron más del 90 por ciento de éxito con una semana de datos compiladosAdemás, al combinar los dos conjuntos de datos con trazas de GPS, recopilados regularmente de manera activa y pasiva por aplicaciones de teléfonos inteligentes, los investigadores estimaron que podrían igualar el 95 por ciento de las trayectorias individuales, utilizando menos de una semana de datos.
Mejor privacidad
Con su estudio, los investigadores esperan aumentar la conciencia pública y promover regulaciones más estrictas para compartir datos del consumidor. "Todos los datos con sellos de ubicación que es la mayoría de los datos recopilados hoy son potencialmente muy sensibles y todos deberíamos tomar decisiones más informadas sobrecon quién lo compartimos ", dice Ratti." Tenemos que seguir pensando en los desafíos en el procesamiento de datos a gran escala, sobre las personas y la forma correcta de proporcionar garantías adecuadas para preservar la privacidad ".
Con ese fin, Ratti, Kondor y otros investigadores han estado trabajando extensamente en los problemas éticos y morales de los grandes datos. En 2013, el Senseable City Lab en el MIT lanzó una iniciativa llamada "Datos de compromiso", que involucra a líderes del gobierno, grupos de derechos de privacidad, academia y empresas, que estudian cómo los datos de movilidad pueden y deben ser utilizados por las empresas de recolección de datos de la actualidad.
"El mundo de hoy está inundado de grandes datos", dice Kondor. "En 2015, la humanidad produjo tanta información como se creó en todos los años anteriores de la civilización humana. Aunque los datos significan un mejor conocimiento del entorno urbano, actualmente gran parte deesta cantidad de información es mantenida por unas pocas compañías e instituciones públicas que saben mucho sobre nosotros, mientras que sabemos muy poco sobre ellas. Debemos cuidarnos para evitar monopolios de datos y mal uso ".
Fuente de la historia :
Materiales proporcionado por Instituto de Tecnología de Massachusetts . Original escrito por Rob Matheson. Nota: El contenido puede ser editado por estilo y longitud.
Referencia del diario :
Cita esta página :