Usamos cookies en nuestro sitio web para brindarte la experiencia más relevante recordando tus preferencias y visitas repetidas. Haz clic en "Aceptar todas las cookies" para disfrutar de esta web con todas las cookies, configura tus preferencias antes de aceptarlas o utiliza el botón "Rechazar todas las cookies" para continuar sin aceptar.

Gestión de Cookies
Zona Clientes
User
Password
Campus e-Learning
User
Password
Noticias  /  Datos sintéticos y protección de datos

Datos sintéticos y protección de datos

Los datos sintéticos podrían usarse en el desarrollo, prueba y validación de servicios de aprendizaje automático, donde los datos reales no están disponibles en las cantidades necesarias o incluso no existen.

24/11/2023

Los datos sintéticos podrían usarse en el desarrollo, prueba y validación de servicios de aprendizaje automático, donde los datos reales no están disponibles en las cantidades necesarias o incluso no existen.

Los datos sintéticos son datos generados artificialmente, a diferencia de los datos reales que se recopilan de la realidad. Un conjunto de datos no reales, que se etiquetará como datos sintéticos, debe preservar las características y propiedades de los datos reales para un caso de uso específico. Los datos sintéticos podrían usarse en el desarrollo, prueba y validación de servicios de aprendizaje automático, donde los datos reales no están disponibles en las cantidades necesarias, o incluso dichos datos reales no existen. También podrían utilizarse como una forma de permitir el acceso a datos de una empresa en el marco de Espacios de Datos sin filtrar secretos comerciales. Podría ser también una técnica de privacidad, cuando se utiliza para crear conjuntos de datos no personales con la misma utilidad que los personales.

Actualmente se necesita una gran cantidad de datos para desarrollar, probar y validar el aprendizaje automático y otros desarrollos basados en la ciencia de datos. En varios casos, la cantidad necesaria de datos para llevar a cabo estas actividades no está disponible, bien porque dichos datos no existen en las cantidades requeridas, o bien porque dichos datos deben representar situaciones que aún no han sucedido en el mundo real. En otros casos, se necesitan específicamente datos de prueba para la verificación y validación de sistemas que representan situaciones anómalas, escenarios límite, circunstancias de muy baja probabilidad o que no han sido registradas, o incluso para probar tipos de ataque con incluso datos manipulados.

Estrechamente relacionada con la situación anterior, el uso de datos sintéticos puede apoyar la economía basada en datos al permitir el acceso a información de entidades públicas y privadas, lo que se conoce como espacios de datos. Por supuesto, las organizaciones serán reacias a divulgar datos que podrían filtrar secretos comerciales, debilidades de la entidad, propiedad intelectual cuando no obtengan suficientes garantías sobre los fines (y limitación) del procesamiento de dichos datos o por el riesgo de impacto sobre sus intereses. La generación de datos sintéticos es una de las varias técnicas que pueden abordar estos problemas. 

Los datos sintéticos han sido objeto de atención en los últimos años, ya que ayudan a desarrollar pruebas y validación en sistemas de comprensión del lenguaje natural, algoritmos de visión  para sistemas de vehículos autónomos o modelos  de detección de fraude para instituciones financieras.

No se trata de datos aleatorios. Cuando se sintetizan a partir de datos reales o se crean desde cero, deben reproducir las características y la estructura de los datos reales permitiendo sacar conclusiones similares en casos de uso específicos. Son datos generados artificialmente que tienen utilidad al menos para un propósito específico. La forma más básica de datos sintéticos, en el borde de dicha definición, podrían ser archivos dummy que simplemente se asemejan al formato de datos reales. Los datos sintéticos si no alcanzan un umbral mínimo de utilidad para un propósito, no podrían considerarse datos propiamente sintéticos en el marco de dicho propósito específico.

Los datos sintéticos podrían reemplazar a los datos reales en algunos casos de uso. Cada caso de uso específico tendrá diferentes requisitos de nivel de calidad y diferentes requisitos con respecto a los matices del proceso y el propósito final. Por ejemplo, para validar un sistema de reconocimiento facial podría necesitarse generar un conjunto de datos de rostros sintéticos para verificar los límites de dicho sistema. Sin embargo, ese conjunto de datos podría carecer de la calidad necesaria para verificar otro tipo de sistemas o para desarrollar nuevos sistemas de reconocimiento facial. 

Los datos sintéticos, como muchas otras técnicas, también podrían funcionar como una Privacy Enhanced Technology (PET), ya que permite la aplicación de un enfoque de protección de datos desde el diseño cuando se trata de casos de uso que necesitan procesar datos personales. En tales casos, la generación de datos sintéticos permite minimizar o evitar el procesamiento de datos personales mientras se logran los objetivos con conclusiones tan buenas como las obtenidas del empleo de datos personales originales. En el marco del RGPD, los datos sintéticos no deberían contener información identificable, incluso cuando podrían generarse a partir de datos personales reales. Debido a que los datos sintéticos solo conservan las propiedades estadísticas o la distribución de los datos personales reales para un propósito específico, los datos sintéticos se pueden usar para evitar que se traten los datos personales.

La creación de datos sintéticos implica un proceso de generación o modelado ("síntesis") que tiene que conseguir la preservación del valor analítico para casos de uso específico y el cumplimiento de la normativa de protección de datos expresada en una serie de requisitos de privacidad. La preservación del valor analítico se refiere a la utilidad del método o modelo, cuán útil es el conjunto de datos para el propósito o caso de uso de los datos.

La creación de datos sintéticos a partir de datos personales reales sería en sí misma una actividad de procesamiento sometida al RGPD. Por lo tanto, es necesario considerar las disposiciones reglamentarias del RGPD y, en particular, el principio de responsabilidad proactiva y la evaluación de un posible riesgo de reidentificación a partir del conjunto de datos sintéticos creados.

Esta síntesis se puede realizar utilizando diferentes técnicas, como el modelado secuencial, los datos simulados, los árboles de decisión o los algoritmos de aprendizaje profundo. Este último generalmente utiliza redes generativas antagónicas (GAN) en las que dos redes neuronales competidoras se entrenan iterativamente: la red generadora intenta aprender la estructura subyacente de los datos originales y genera los puntos de datos sintéticos con la misma distribución estadística, y la red discriminadora intenta identificar los datos recibidos como originales o sintéticos. 

Dependiendo del propósito para el que se vayan a utilizar los datos sintéticos, se puede considerar sintetizar todas las variables del conjunto de datos original (datos totalmente sintéticos) o solo sintetizar algunas de las variables, por ejemplo, las más sensibles (datos parcialmente sintéticos). En este último caso, el riesgo de divulgación de datos personales es mayor, ya que contienen datos originales junto con datos sintéticos.

Independientemente de la técnica elegida, se debe realizar una evaluación de la anonimidad para garantizar que el conjunto de datos sintéticos resultante no contenga información de personas identificadas o identificables. Para evitar la divulgación de información personal, se pueden aplicar otras técnicas de preservación de la privacidad sobre los datos sintéticos, como la privacidad diferencial.

De esta manera, los datos sintéticos representan una poderosa herramienta para implementar el enfoque de protección de datos desde el diseño, ya que los datos personales no están expuestos y pueden usarse en múltiples aplicaciones. Por ejemplo, los datos sintéticos pueden ayudar a superar la escasez de datos, mejorar la calidad de los datos (por ejemplo, mitigar el sesgo en los datos originales) y mejorar la diversidad de datos. Puede ser utilizado  por las oficinas de estadística para  divulgar datos útiles al público sin comprometer la privacidad de los encuestados, o por  la comunidad educativa y de salud  para desarrollar habilidades analíticas y descubrir patrones o ideas al tiempo que protege la identidad y la privacidad de las personas. 

Los datos sintéticos son una tecnología dual que permite dar respuestas a la economía del dato y la preservación de la privacidad. Sin embargo, los datos sintéticos no siempre serán la opción más acertada, y su oportunidad debe evaluarse caso por caso. En algunos casos, los conjuntos de datos pueden ser demasiado complejos para obtener una comprensión correcta de su estructura para un caso específico (por ejemplo, correlaciones, colas de ponderación, etc.), o puede ser difícil imitar los valores atípicos de datos reales. Los datos sintéticos generados erróneamente también pueden dar lugar a malentendidos durante la fase de desarrollo, prueba y validación. Por último, la evaluación del riesgo de reidentificación podría dar un resultado negativo. En tales casos, deben utilizarse PET alternativos o complementarios.

 

Fuente: aepd.es

Solicita más información

En cumplimiento de la normativa de protección de datos, en particular del Reglamento (UE) 2016/679, del Parlamento Europeo y del Consejo, de 27 de abril de 2016, le informamos que los datos personales que usted nos facilita a través del presente formulario, serán utilizados por International Dynamics Advisors (INTEDYA), para tramitar su solicitud de información respecto al asunto indicado. .

Los datos personales marcados con (*) son imprescindibles para tramitar su solicitud, siendo el resto opcionales, y orientados a mejorar las vías de comunicación con los solicitantes. INTEDYA únicamente comunicará sus datos a las oficinas (pertenecientes a su red de oficinas) necesarias o relacionadas con el servicio solicitado, no realizando ninguna otra comunicación, más allá de las obligaciones legales que puedan derivarse del tratamiento. Asimismo, ni INTEDYA ni las oficinas de su red implicadas, utilizará sus datos con finalidades distintas a las indicadas, salvo autorización expresa y previa del titular de los mismos. Los datos personales serán tratados únicamente durante el tiempo necesario para tramitar su solicitud, tras lo cual se procederá a su supresión. Le informamos sobre la posibilidad de ejercer los derechos de acceso, rectificación, supresión, portabilidad y limitación del tratamiento, en los términos previstos en la ley, que podrá ejercitar dirigiéndose a International Dynamics Advisors, en Calle Secundino Roces Riera, nº 5, planta 2, oficina 7, Parque Empresarial de Asipo I. C.P. 33428 Cayés, Llanera (Asturias)., o a la dirección de correo electrónico info@intedya.com.

Además, en caso de que usted nos autorice expresamente, INTEDYA podrá utilizar sus datos de contacto para el envío de Newsletter, comunicaciones, notificaciones y, en general, información sobre nuestros productos y servicios que puedan resultar de su interés.

Para obtener más información sobre el uso de los datos de carácter personal, así como sobre el cumplimiento de los principios, requisitos y derechos recogidos de la normativa de protección de datos, INTEDYA pone a disposición de los interesados, a través de su página web, su Política de Privacidad.

Trabajamos formando un banco mundial de conocimiento, sumando la experiencia y capacidades de todos nuestros profesionales y colaboradores capaces de formar el mejor equipo internacional de conocimiento.

Reconocimientos y participación

INCIBECursos Universitarios de Especialización UEMCStaregisterUNE Normalización EspañolaOganización Asociada a la WORLD COMPLIANCE ASSOCIATIONStandards Boost BusinessMiembros de ANSI (American National Standards Institute)Miembros de la Green Industry PlatformMiembros de la Asociación Española de la CalidadAdheridos al Pacto de LuxemburgoMiembros de la European Association for International Education