ESPECIAL

Datos sintéticos: ¿qué son y cómo usarlos?

Los datos son el combustible de la transformación digital del siglo XXI, donde en muchos casos funciona como commodity. No obstante, en ciertas situaciones, para proteger la privacidad estos datos pueden ser fabricados o simulados.

Actualizado el 2 jul 2025

Añadir a tus fuentes preferidas en Google

Francisco Iglesias

Director editorial de Netmedia

En el campo del aprendizaje automático (ML, por sus siglas en inglés), los datos sintéticos están destinados a desempeñar un papel fundamental: entrenar algoritmos con enormes volúmenes de entrada. Dado que la cantidad de datos necesaria para este propósito puede resultar prohibitiva, se utilizan datos ficticios.

Organizaciones e investigadores utilizan cada vez más datos generados sintéticamente sobre los que se comienzan a construir archivos. Esto, mediante la técnica de aprendizaje por transferencia, permitirá entrenar e incluso preentrenar modelos de machine learning en el futuro.

Índice de temas

Qué son los datos sintéticos

Los datos sintéticos son información generada artificialmente mediante algoritmos o modelos matemáticos, que replican las propiedades estadísticas y patrones de los datos reales sin contener información personal ni provenir de eventos reales. Se utilizan para entrenar modelos de inteligencia artificial, realizar simulaciones, probar sistemas y validar hipótesis en entornos donde el uso de datos reales es limitado, costoso o implica riesgos de privacidad. Su valor radica en su capacidad para mantener la utilidad analítica de los datos originales sin comprometer la confidencialidad.

Utilizar millones de datos privados para una investigación cuyo propósito no son los datos per sé, sino los resultados que esta genera; puede comprometer la privacidad de las personas. Es por esto que, en estos casos, muchos desarrollos tecnológicos surgen a partir del uso de datos sintéticos o ficticios.

En ese sentido, la revista TechTarget define a los datos sintéticos como información que se fabrica artificialmente, en lugar de generarse mediante eventos del mundo real. Esta big data se crea mediante algoritmos es utilizada para validar modelos matemáticos y entrenar arquitecturas de machine learning.

Ver este video en YouTube

En este apartado de Apple Podcast, el CEO de Meta Mark Zuckerberg explica cómo entrenó el modelo Lama 3 a partir de millones de datos sintéticos y procesar así una gran cantidad de solicitudes reales en el futuro.

Para proporcionar una definición más rigurosa, podemos decir que los datos sintéticos artificiales son datos generados artificialmente que reproducen fielmente las características y comportamientos de los datos reales, sin contener información confidencial.

Difererencia entre un dato sintético y un dato real

Un dato real proviene de eventos concretos observados o registrados, mientras que un dato sintético es generado artificialmente mediante simulaciones o modelos estadísticos. Aunque pueden compartir estructuras similares, los datos sintéticos no se relacionan con individuos reales ni contienen información histórica, lo que los hace más seguros y éticamente apropiados para pruebas, investigación o entrenamiento de modelos. Esta diferencia los posiciona como una solución clave para el desarrollo de inteligencia artificial responsable.

En las finanzas, los datos sintéticos simulan información relacionada con pagos en tarjeta de crédito y débito. Estos movimientos se ven y se comportan como una transacción típica y pueden ayudar a desenmascarar actividades fraudulentas, por ejemplo.

En este contexto, los científicos de datos no están interesados en el dato en sí mismo, sino que buscan evaluar sistemas de detección de fraudes a partir de información falsa y desarrollar métodos más precisos para detectar casos sospechosos.

En otro caso, los equipos de DevOps utilizan datos sintéticos para realizar pruebas de control de calidad del software. Insertan los datos generados artificialmente en el proceso de verificación sin tener que trasladar los datos auténticos de la fase de producción.

¿Cómo se crean los datos sintéticos?

Los datos sintéticos se crean a partir de técnicas como el muestreo estadístico, la simulación de agentes y los modelos generativos avanzados. Estas metodologías permiten producir datos que reflejan patrones y correlaciones de conjuntos reales, sin reproducir registros individuales. Los modelos generativos como GANs o VAEs aprenden directamente del conjunto original para sintetizar nuevas instancias indistinguibles desde un punto de vista estadístico. Este proceso puede adaptarse a múltiples dominios, desde la salud hasta las finanzas o el lenguaje natural.

En el desarrollo de aplicaciones que utilizan datos sensibles, los conjuntos de información existen teóricamente, pero no pueden divulgarse al público; dice un artículo del Instituto de Ingenieros Eléctricos y Electrónicos (IEEE) llamado “Sintetización de datos de prueba para sistemas de detección de fraude”.

Esta figura compara datos sintéticos y datos originales, mostrando cómo los datos sintéticos mantienen propiedades estadísticas similares pese a tener valores diferentes (PDPC, 2024).

Llegado a este punto, existen diferenes técnicas que se pueden utilizar para “fabricar” datos sintéticos. Descúbrelas a continuación.

Modelo de distribución

Este enfoque consiste en generar datos sintéticos a partir de distribuciones estadísticas conocidas, como la normal o la binomial. Se utiliza cuando el objetivo es replicar la estructura estadística general de un conjunto de datos, sin necesidad de representar relaciones complejas entre variables. Es una técnica rápida, sencilla y útil para simulaciones, pruebas de software o entrenamientos preliminares, aunque puede carecer del realismo profundo que ofrecen otros métodos generativos.

Entre los enfoques más comunes se encuentra el que consiste en extraer números de una distribución, un método que, si bien no es capaz de captar la información de los datos reales, puede producir una distribución de datos muy parecida a la suya.

Modelo de agentes

El modelo basado en agentes crea entornos simulados donde múltiples entidades autónomas interactúan según reglas definidas. Es ideal para generar datos sintéticos en contextos donde el comportamiento emergente —como la movilidad urbana, la dinámica de mercados o la propagación de enfermedades— es clave. Este enfoque permite analizar escenarios imposibles de replicar con datos reales, y es especialmente valioso en estudios de sistemas complejos y multiagente.

El modelado basado en agentes, por otro lado, implica la creación de agentes únicos que se comuniquen entre sí. Este método es especialmente útil cuando se examina cómo los diferentes agentes, como los dispositivos conectados, las personas o incluso los programas de computadora, interactúan entre sí en un sistema complejo.

Modelos generativos

Los modelos generativos utilizan inteligencia artificial para aprender patrones complejos de datos reales y generar nuevas instancias sintéticas con alta fidelidad. Algoritmos como GANs (Redes Generativas Antagónicas) y VAEs (Autoencoders Variacionales) pueden crear datos visuales, textuales o tabulares, manteniendo la coherencia estadística. Son especialmente eficaces para entrenar sistemas de IA cuando el acceso a datos reales es limitado o regulado.

Los modelos generativos, algoritmos capaces de crear información que replica las propiedades o características estadísticas de los datos reales, utilizan conjuntos de datos de entrenamiento para aprender de modelos estadísticos. Con este conocimiento, generan datos sintéticos similares a los datos originales.

Ventajas de utilizar datos sintéticos

Los datos sintéticos ofrecen beneficios clave como la preservación de la privacidad, la reducción de costos de adquisición de datos reales y la aceleración del desarrollo de inteligencia artificial. Facilitan la colaboración entre organizaciones al permitir el intercambio de datos sin riesgos legales, y ayudan a superar limitaciones como clases desbalanceadas o escasez de datos. Además, permiten probar sistemas en condiciones extremas, simular eventos infrecuentes y generar entornos seguros para innovación sin afectar a personas reales.

Además de preservar la privacidad de los datos de las personas, los datos sintéticos aceleran la investigación, la innovación, la colaboración y la toma de decisiones en el desarrollo de aplicaciones que precisan del big data para perfeccionar sus arquitecturas de software.

Para clarificar las ventajas en el uso de datos sintéticos, la Comisión de Protección de Datos Personales (PDPC) del Gobierno de Singapur realizó una guía sobre generación de datos sintéticos la cual contiene una lista de ventajas de su uso, con un caso de éxito a modo ejemplificador. Descúbrelos a continuación.

Categoría	Tecnologías que mejoran la privacidad (PETs en inglés)	Casos de uso
Ofuscación de datos	Técnicas de anonimización/seudonimización	Almacenamiento seguro
		Compartir y retener datos
		Pruebas de software
	Generación de datos sintéticos	Aprendizaje automático con IA que preserva la privacidad
		Compartir y analizar datos
		Pruebas de software
	Privacidad diferencial	Ampliar oportunidades de investigación
		Compartir datos
	Pruebas de conocimiento cero	Verificar información sin requerir divulgación (por ejemplo, verificación de edad)
Procesamiento de datos cifrados	Cifrado homomórfico	Almacenamiento seguro de datos en la nube
		Computación sobre datos privados sin divulgarlos
	Computación multipartita (incluye intersección de conjuntos privados)	Computación sobre datos privados sin divulgarlos
	Entornos de ejecución confiables	Computación usando modelos que deben permanecer privados
		Computación sobre datos privados sin divulgarlos
Análisis federado	Aprendizaje federado	Aprendizaje automático con IA que preserva la privacidad
	Análisis distribuido

La principal aplicación de los datos sintéticos es el entrenamiento de redes neuronales y modelos de aprendizaje automático, un área en la que los desarrolladores deben poder contar con conjuntos de datos cuidadosamente etiquetados que pueden variar desde unos pocos miles hasta decenas de millones de elementos.

Otras ventajas del uso de datos sintéticos

Los datos sintéticos permiten generar grandes volúmenes de información de forma rápida y controlada, sin incurrir en riesgos legales. Ofrecen personalización por sector, reducción de sesgos, generación de datos balanceados y aceleración del desarrollo de modelos. Además, pueden incluir etiquetas automáticas para aprendizaje supervisado y facilitar experimentos bajo condiciones reproducibles, eliminando las limitaciones del acceso a datos reales.

Los datos sintéticos permiten crear una cantidad amplia y diversificada de insumos para la formación, no solo al contener los gastos y reducir el tiempo, sino también al proteger la privacidad de los usuarios y garantizar el cumplimiento de la normativa con respecto al procesamiento de datos confidenciales.

En un aspecto más personalizable, una organización puede crear conjuntos de datos de acuerdo con sus necesidades, adaptándolos a ciertas condiciones que pueden no obtenerse con datos auténticos.

Incluso cuando los datos sintéticos están ampliamente disponibles, no siempre están etiquetados. Este escenario es muy común en el caso de las actividades de aprendizaje supervisado, donde el etiquetado manual de una multitud de instancias puede implicar mucho tiempo y, por lo tanto, estar sujeto a errores.

Afortunadamente, con el fin de acelerar el proceso de desarrollo del modelo y garantizar la precisión de las etiquetas y rótulos, es posible crear datos etiquetados sintéticos.

Precisamente, porque los datos sintéticos no se recopilan a partir de eventos reales, con las herramientas adecuadas es posible crear conjuntos con mucha más rapidez. Así, se elimina por completo las operaciones manuales y se automatizan los procesos.

Seguridad en el uso de datos sintéticos

El uso seguro de datos sintéticos requiere garantizar que no se filtren características que permitan reconstruir información personal. Aunque no provienen de personas reales, su calidad depende de modelos entrenados sobre datos originales, por lo que deben cumplirse estándares regulatorios como el RGPD o HIPAA. Las mejores prácticas incluyen auditorías de privacidad, validaciones de no reidentificabilidad y cumplimiento normativo. Bien implementados, los datos sintéticos son una alternativa más segura que los datos anonimizados tradicionales.

Cuando hablamos de datos sintéticos, es inevitable no mencionar la privacidad, la protección de datos y el control que se puede ejercer sobre los archivos. Dependiendo del país donde opere la empresa que trabaja con datos, debera atañarse a ciertas leyes que protegen al usuario. Descúbrelas aquí debajo.

En Estados Unidos, la Ley de Portabilidad y Responsabilidad de los Seguros Médicos protege los datos médicos personales, evita su uso indebido y fija normas de seguridad para establecer y mantener los registros electrónicos sobre la salud de la persona; entre otras cosas.

En la Unión Europea, el Reglamento General de Protección de Datos establece que “la protección de las personas físicas en relación con el tratamiento de datos personales es un derecho fundamental”. Por lo tanto, exige a quienes manipulen datos personales a:

Ser licitos, leales y transparentes
Rindan cuentas sobre la finalidad del uso de los datos
Sean exactos, integrales y confidenciales
Responsables en mantener segura la información personal de terceros

En Latinoamérica, muchos países tomaron de ejemplo leyes de la UE y Norteamérica para promulgar sus propias leyes sobre la protección de datos personales.

En el caso de México, la Ley Federal de Protección de Datos Personales en Posesión de los Particulares recupera los derechos ARCO, mencionados aquí arriba: acceso, rectificación, cancelación y oposición.

Datos falsos, información real: riesgos y desafíos en el uso de datos sintéticos

Los datos sintéticos pueden introducir sesgos, errores o una falsa sensación de diversidad si no se generan adecuadamente. Existe el riesgo de que los modelos sobreajusten a patrones irreales, afectando decisiones críticas. Además, si los conjuntos originales están sesgados, los datos sintéticos podrían amplificar esos problemas. La calidad, representatividad y validación continua son fundamentales para evitar que su uso conduzca a conclusiones incorrectas, decisiones discriminatorias o tecnologías injustas.

Aunque los datos sintéticos ayudan a proteger la privacidad, generan un falso sentido de seguridad en la corrección de sesgos. Por ejemplo, en reconocimiento facial, la diversidad cultural cualitativa no se captura bien con datos generados artificialmente, lo que puede ocultar problemas reales de representación.

Investigadores de la Universidad de California alertan que la “overconfidence” o falsa confianza en datos sintéticos puede incurrir en un error. Esta confianza exagerada puede ocultar limitaciones reales y afectar la precisión y la ética en la toma de decisiones basadas en datos ficticios.

La creación o inclusión de datos sintéticos para diversificar conjuntos puede resultar en una apariencia superficial de diversidad, llamada “diversity-washing”. Esto puede legitimar tecnologías sesgadas, como modelos de reconocimiento facial, que replican prejuicios pese a aparentar ser más justos.

El sitio referente en market research, Greenbook, menciona también que los datos sintéticos pueden pasar por alto las complejidades culturales y emocionales propias del ser humano y no cambiar a medida que las personas o la cultura evoluciona.

Ejemplos de uso de datos sintéticos

Los datos sintéticos se aplican ampliamente en sectores como la salud, donde ayudan a entrenar algoritmos sin violar la confidencialidad del paciente; en finanzas, para detectar fraudes sin exponer transacciones reales; y en automoción, para simular escenarios de conducción autónoma. También son usados en visión artificial y reconocimiento de voz, con datos no estructurados como imágenes o audio. En manufactura, permiten realizar mantenimiento predictivo y pruebas de calidad sin detener la producción ni comprometer seguridad.

Si se toman las precauciones necesarias, los datos sintéticos reflejarán adecuadamente los datos originales que se pretende reemplazar o mejorar. Y es sobre la base de esta prerrogativa que las empresas están desarrollando sus aplicaciones.

También hay organizaciones que utilizan datos sintéticos no estructurados (imágenes, vídeo y audio) para utilizarlos en campos como la visión artificial, el reconocimiento de voz y la tecnología de vehículos autónomos.

Por último, podemos mencionar los datos de producción: en la industria manufacturera ya hay quienes utilizan datos sintéticos para las pruebas de control de calidad y el mantenimiento predictivo.

Datos sintéticos: perspectivas de futuro

El mercado de datos sintéticos crecerá exponencialmente debido al avance de la IA y a las regulaciones de privacidad más estrictas. Se espera que se conviertan en el estándar para entrenar modelos seguros, éticos y eficientes. Su adopción permitirá democratizar el acceso a datos, optimizar proyectos de transformación digital y habilitar nuevos casos de uso en sectores públicos y privados. A medida que mejoran las técnicas de generación y validación, su confiabilidad y aplicabilidad seguirán aumentando.

Gracias a los datos sintéticos, cada vez más empresas podrán llenar los vacíos que caracterizan a los conjuntos de datos reales, manteniendo bajo control el tiempo y los costes necesarios para alimentar los modelos de aprendizaje automático e inteligencia artificial.

CAGR (mordor intelligence).jpg — Proyección del crecimiento del mercado global de datos sintéticos de 2025 a 2030 (Mordor Intelligence).

De acuerdo con las estimaciones de la consultora Mordor Intelligence, el mercado de datos sintéticos está valorado en US$ 510 millones en 2025 y se espera que alcance los US$ 2670 millones para 2030.

Con una CAGR del 39.4%, este crecimiento se corresponde a las regulaciones en privacidad que los gobiernos están promulgando, así como el avance de la inteligencia artificial y distintos proyectos de transformación digital que se basan en conjuntos de datos compatibles pero estadísticamente fieles.

FAQs sobre el uso de datos sintéticos en empresas

¿Qué criterios técnicos se deben considerar para validar la calidad de los datos sintéticos?

La validación debe evaluar similitud estadística con los datos reales, utilidad en el modelo entrenado y ausencia de información sensible. Herramientas como SDMetrics o TSTR (Train on Synthetic, Test on Real) son clave.

¿Qué diferencias existen entre datos sintéticos y técnicas tradicionales de anonimización?

La anonimización elimina identificadores de datos reales, mientras que los datos sintéticos se generan desde cero. Esto los hace más seguros ante ataques de reidentificación y mejores para cumplimiento normativo.

¿Qué herramientas líderes permiten generar datos sintéticos de alta calidad para empresas?

Plataformas como MOSTLY AI, Gretel.ai, YData o Synthea ofrecen generación controlada y validación de datasets sintéticos, compatibles con marcos regulatorios y escalables para entornos empresariales.

¿Cuándo es preferible usar GANs frente a otros modelos generativos en la creación de datos sintéticos?

Las GANs son ideales para datos no estructurados como imágenes o audio, ya que capturan relaciones complejas. Para datos tabulares, modelos como VAEs o Gaussian Copulas pueden ser más precisos y estables.

Prohibida su reproducción total o parcial.

Francisco Iglesias

Director editorial de Netmedia

Periodista mexicano con experiencia desde 2006 en medios impresos, digitales, radio y televisión. Ha colaborado con Milenio, Expansión, Chilango, Animal Político, Publimetro, W Radio, Radio Fórmula y Multimedios. Desde 2011 se ha enfocado en la cobertura de tecnología B2B y negocios, con experiencia complementaria en temas de política, derechos humanos, diversidad sexual, entretenimiento, estilo de vida, turismo y ámbito legislativo. Desarrolla contenido multimedia para medios tradicionales y plataformas digitales, con enfoque en formatos informativos y narrativos.

Sígame en

Canales

I
Inteligencia Artificial

Datos sintéticos: ¿qué son y cómo usarlos?

Qué son los datos sintéticos

Difererencia entre un dato sintético y un dato real

¿Cómo se crean los datos sintéticos?

Modelo de distribución

Modelo de agentes

Modelos generativos

Ventajas de utilizar datos sintéticos

Otras ventajas del uso de datos sintéticos

Seguridad en el uso de datos sintéticos

Datos falsos, información real: riesgos y desafíos en el uso de datos sintéticos

Ejemplos de uso de datos sintéticos

Datos sintéticos: perspectivas de futuro

FAQs sobre el uso de datos sintéticos en empresas

¿Qué criterios técnicos se deben considerar para validar la calidad de los datos sintéticos?

¿Qué diferencias existen entre datos sintéticos y técnicas tradicionales de anonimización?

¿Qué herramientas líderes permiten generar datos sintéticos de alta calidad para empresas?

¿Cuándo es preferible usar GANs frente a otros modelos generativos en la creación de datos sintéticos?

Francisco Iglesias

Director editorial de Netmedia

Leer también:

Artículos relacionados

Avances tecnológicos actuales en México ✅

TCP/IP: ¿qué es, cómo funciona y por qué es clave para la seguridad de las redes empresariales?

Machine Learning: Descubra el arte de enseñar a las máquinas a ver el futuro

Con agentes de AI, "el problema cada vez será menos técnico y mucho más cultural": Villarreal

Código Rss

Código Rss