La síntesis de datos se ha presentado como una técnica factible para compartir y analizar datos confidenciales de una manera que sea ethical y legalmente aceptable. El desarrollo de esta tecnología y sus beneficios potenciales se ven frenados por los considerables problemas legales, éticos y de confianza asociados con la capacitación y la aplicación de modelos de aprendizaje automático en industrias que manejan información confidencial e identificable individualmente, como la atención médica. Según la definición y los objetivos de privacidad, es posible crear un conjunto de datos que permita el entrenamiento preciso del modelo de aprendizaje automático (ML) sin sacrificar la privacidad. Por ejemplo, los datos que no se pueden utilizar para identificar a una persona específica pueden estar exentos del RGPD.
Investigadores de Amazon desarrollan un sistema para crear datos sintéticos que protegen la privacidad y mejoran su utilidad para el aprendizaje automático. Están interesados en métodos que:
- Aproximar la verdadera distribución de datos.
- Mantener la utilidad de aprendizaje automático (los modelos ML entrenados en la publicación de datos funcionan de manera related a los modelos entrenados en datos verdaderos).
- Preservar la privacidad mediante DP para ML que preserva la privacidad mediante la publicación de datos privados diferenciales.
En este esfuerzo, dependerán de la privacidad diferencial que, en contraste con criterios de privacidad más débiles como el k-anonimato, se ha demostrado que protege contra la identificación de personas específicas.
Más específicamente, sugieren investigar un grupo de algoritmos de generación de datos M que, dado un conjunto de datos inicial D = (Xi, Yi) i=1 a n con n puntos de datos Xi y etiquetas Yigenerar un conjunto de datos sintético D~ = M(D) que hace lo siguiente:
1. Aproximar la distribución de datos subyacente: estimar una densidad paramétrica p(x) optimizando un objetivo de verosimilitud logarítmica.
2. Modificar la distribución de datos estimada para que un clasificador entrenado con muestras de datos pierda menos de lo que perdería un clasificador entrenado con los datos reales. L1, el objetivo que fomenta la conservación auténtica de la distribución de datos, y L2, el objetivo que fomenta la pérdida del clasificador coincidente, deben equilibrarse en el proceso de optimización common.
3. Anonimizar asegurándose de que todo el mecanismo de publicación de datos tenga (ϵ, δ) privacidad diferencial, lo que hace unbelievable que se pueda identificar la participación de un solo punto de datos. En otras palabras, asegúrese de que el algoritmo para liberar datos sea diferencialmente privado.
Una versión mejorada de Random Mixing para garantizar la privacidad al mantener combinaciones de puntos de datos en lugar de puntos de datos individuales para facilitar un enfoque de “seguridad en números” para evitar la reidentificación). Es posible implementar esta arquitectura common de varias maneras. En este trabajo, evalúan ClustMix, un algoritmo sencillo que implementa estas 3 fases. Seleccionarán un modelo de mezcla gaussiana como estimador de densidad y un algoritmo de metaaprendizaje de punto de inducción de kernel como aproximador de pérdida (para permitir un compromiso entre mantener la densidad y la fidelidad del clasificador).
Sus principales contribuciones son el marco versatile de generación de datos que preserva la privacidad descrito anteriormente y la introducción de mezclas basadas en clústeres en lugar de aleatorias para preservar la privacidad diferencial, lo que permite aumentos significativos de precisión con respecto a los métodos publicados anteriormente. La creación de nuevos ejemplos de capacitación al tomar combinaciones convexas de puntos de datos existentes se ha aprovechado con éxito en el aprendizaje automático, por ejemplo, para el aumento de datos, el aprendizaje con redundancia en entornos distribuidos y, más recientemente, el aprendizaje automático privado.
Su técnica de liberación de datos privados diferencialmente (DP) utiliza mezclas aleatorias (combinaciones convexas de un subconjunto elegido al azar de un conjunto de datos) y ruido gaussiano aditivo. Si bien algunos de estos algoritmos se esfuerzan explícitamente por conservar la distribución de datos authentic, la mayoría de las muestras son aleatorias y descuidan la geometría de los datos. Como resultado, las áreas de baja densidad cercanas a los límites de decisión no se pudieron guardar, lo que podría reducir el valor posterior del aprendizaje automático. Además, las combinaciones de muestras aleatorias no pudieron retener distribuciones de datos particulares, incluidas las variables continuas sesgadas y multimodo. Su método utiliza el muestreo de la vecindad de los centroides de los conglomerados en lugar del muestreo aleatorio para mantener la distribución de datos. Las mezclas ruidosas pueden acercarse más a la distribución de datos authentic mezclando puntos de datos relacionados en lugar de aleatorios, perdiendo menos utilidad que las técnicas de la competencia y teniendo una mayor garantía de DP.
Revisar la Papel. Todo el crédito de esta investigación es para los investigadores de este proyecto. Además, no olvides unirte nuestro SubReddit de 15k+ ML, Canal de discordiay Boletín electrónicodonde compartimos las últimas noticias de investigación de IA, interesantes proyectos de IA y más.
Aneesh Tickoo es pasante de consultoría en MarktechPost. Actualmente está cursando su licenciatura en Ciencias de la Información e Inteligencia Synthetic en el Instituto Indio de Tecnología (IIT), Bhilai. Pasa la mayor parte de su tiempo trabajando en proyectos destinados a aprovechar el poder del aprendizaje automático. Su interés de investigación es el procesamiento de imágenes y le apasiona crear soluciones a su alrededor. Le encanta conectar con la gente y colaborar en proyectos interesantes.