Los datos sintéticos son datos generados de manera artificial. A diferencia de los datos reales que se recopilan de manera real. Un conjunto de datos sintéticos debe preservar las características y propiedades de los datos reales para casos de uso específico.
Usos de datos sintéticos
Los datos sintéticos podrían usarse:
- en el desarrollo, pruebas y validación de servicios de aprendizaje automático,
- donde los datos reales no están disponibles para recopilar en las cantidades necesarias,
- donde dichos datos reales no existen.
También podrían utilizarse como una forma de permitir el acceso a datos en el marco de Espacios de Datos sin filtrar secretos comerciales. Podría ser también una técnica de privacidad, si se utiliza para crear conjuntos de datos no personales y preservar privacidad.
El proceso de creación
La creación de dichos datos implica un proceso de generación, llamado «síntesis» que pretende conseguir la preservación del valor analítico para casos de uso específico y el cumplimiento de la normativa de protección de datos expresada como requisitos de privacidad. La preservación del valor analítico se refiere a la utilidad del método.
La creación de este tipo de datos a partir de datos personales reales sería una actividad de procesamiento sometida al RGPD. Por lo tanto, es necesario considerar las disposiciones reglamentarias de la normativa vigente de protección de datos. Sobre todo, el principio de responsabilidad proactiva y la evaluación de un posible riesgo de reidentificación a partir de los datos sintéticos creados.
Evaluación de anonimidad de los datos sintéticos
Independientemente de la técnica seleccionada, se debe realizar una evaluación de la anonimidad. Debe garantizar que el conjunto de dichos datos resultante no contenga información de personas identificadas o identificables.
No siempre será la opción acertada
Sin embargo, los datos sintéticos no serán siempre la opción más acertada. A veces, los conjuntos de datos pueden ser demasiado complejos para obtener una comprensión correcta de su estructura para un caso específico (correlaciones, colas de ponderación, etc.). También puede ser difícil imitar los valores atípicos de datos reales.
Para más información, pueden utilizar el siguiente enlace del artículo reciente de la AEPD.