Las redes sintéticas pueden aumentar la disponibilidad de algunos datos al tiempo que protegen la privacidad individual o institucional, según un estadístico de Penn State.
"Mi interés principal es desarrollar una metodología que permita un intercambio más amplio de datos confidenciales de una manera que pueda ayudar en el descubrimiento científico", dijo Aleksandra Slavkovic, profesora de estadística y decana asociada de educación de posgrado, Eberly College of Science, Penn State"El objetivo es poder compartir datos confidenciales con un riesgo mínimo cuantificable para el descubrimiento de información confidencial y aún así garantizar la precisión e integridad estadística".
Slavkovic ha encontrado soluciones a este problema de privacidad de datos a través de colaboraciones interdisciplinarias, especialmente con informáticos y científicos sociales. Su investigación se centra en varios datos, incluidos los datos de red que capturan información de relaciones entre entidades como individuos o instituciones. Informó sus enfoques para proporcionarredes sintéticas que satisfacen una noción de privacidad diferencial hoy 16 de febrero durante la reunión anual de 2019 de la Asociación Americana para el Avance de la Ciencia en Washington, DC
La privacidad diferencial proporciona una garantía matemáticamente comprobable del nivel de pérdida de privacidad para las personas.
Los científicos desean acceder a los datos recopilados por otros para su investigación, pero dicho acceso también podría comprometer la privacidad personal, incluso después de la eliminación de los llamados datos de identificación personal.
"Una gran cantidad de datos auxiliares es el principal culpable", dijo Slavkovic. "Con los avances metodológicos y tecnológicos en la recopilación de datos y la vinculación de registros, un acceso más fácil a una variedad de fuentes de datos que podrían vincularse con un conjunto de datos disponible, y agencias de financiaciónrequisitos para compartir datos, los riesgos para la privacidad de los datos están aumentando. Pero encontrar buenas soluciones para gestionar la pérdida de privacidad es esencial para permitir un descubrimiento científico sólido ".
La información disponible públicamente de un ensayo farmacológico con un medicamento contra el VIH, por ejemplo, indicaría quién estaba en el grupo de tratamiento y quién estaba en el grupo de control. El grupo de tratamiento contendría solo a las personas diagnosticadas con VIH y aunque los propietarios de los datos ocultarandatos personales de ese conjunto de datos, quedaría algo de información de identificación. Debido a que tanta información está disponible actualmente en línea en las redes sociales y en otros conjuntos de datos, es posible conectar los puntos e identificar a las personas, lo que podría revelar su estado de VIH.
"Las técnicas para vincular dos conjuntos de datos, digamos registros de votantes y datos de seguro médico, han mejorado enormemente", dijo Slavkovic. "En uno de los primeros hallazgos, Latanya Sweeny ahora en Harvard demostró que al vincular este tipo de datos,puede identificar el 87 por ciento de las personas en el Censo de EE. UU. desde 1990 en función de su fecha de nacimiento, sexo y código postal de 5 dígitos. Más recientemente, los investigadores utilizaron tuits y metadatos de Twitter asociados para mostrar que pueden identificar a los usuarios con una precisión del 96.7 por ciento"
Slavkovic señala que no son solo las personas o instituciones cuyos datos están contenidos en las bases de datos, sino que las personas fuera de la base de datos también pueden sufrir una invasión de la privacidad, directamente o por asociación. Vínculos entre la información en un conjunto de datos y la información en las redes socialespodría conducir a una grave violación de la privacidad, algo como el estado del VIH o la orientación sexual podría tener graves repercusiones si se revela.
Si bien la privacidad es importante, los conjuntos de datos recopilados constituyen una fuente esencial de información para los investigadores. Actualmente, en algunos casos cuando los datos son excepcionalmente sensibles, los investigadores deben ir físicamente a los repositorios de datos para hacer su investigación, lo que hace que la investigación sea más difícil y costosa.
Slavkovic está interesado en los datos de la red. Información que muestra la interconexión de las personas o instituciones - los nodos - y las conexiones entre nodos. Su enfoque es crear conjuntos de datos de red reflejados y ligeramente alterados con algunos de los nodos movidos, conexionesdesplazado o bordes alterados.
"El objetivo es crear nuevas redes que satisfagan los rigurosos requisitos de privacidad diferencial y al mismo tiempo capturar la mayoría de las características estadísticas de la red original", dijo Slavkovic.
Estos conjuntos de datos sintéticos podrían ser suficientes para que algunos investigadores satisfagan sus necesidades de investigación. Para otros, sería suficiente probar sus enfoques e hipótesis antes de tener que ir al sitio de almacenamiento de datos. Los investigadores podrían probar el código, hacer investigaciones exploratorias y tal vezanálisis básico mientras espera el permiso para usar los datos originales en su sitio de repositorio.
"No podemos satisfacer las demandas de todos los análisis estadísticos con el mismo tipo de datos alterados", dijo Slavkovic. "Algunas personas necesitarán los datos originales, pero otros podrían recorrer un largo camino con datos sintéticos como las redes sintéticas".
Fuente de la historia :
Materiales proporcionados por Estado Penn . Nota: El contenido puede ser editado por estilo y longitud.
Cita esta página :