El peligro de los datos sintéticos en manos de la IA

 

Hubo un tiempo en el que la explosión de datos era una de las mayores preocupaciones del sector tecnológico. Sin embargo, el avance de las nuevas tecnologías ha ampliado la capacidad de almacenamiento al tiempo que lo abarataba. Con el procesamiento masivo de datos (big data), también se fueron despejando los temores a no saber transformar esos datos en información útil. Ahora el problema es que faltan datos para satisfacer la voracidad de la Inteligencia Artificial (IA) y se produce otra explosión, la de datos sintéticos.

Hace una década, se calculaba que la generación anual de datos en todo el mundo rondaba 1 zettabyte (cada ZB son 1.000 millones de terabytes). A día de hoy, se estima que el volumen anual de datos globales ronda los 200 ZB, y que para 2030 esa cifra podría saltar a los 600 ZB y en 2035 a los 2.000 ZB.

Las previsiones se han desbordado. En 2021 algunos analistas barruntaban que para 2025 se generarían unos 169 ZB de información al año y excedemos en más de un 15% esa estimación. Puede parecer poco, pero para tomar conciencia de la magnitud, un 1 ZB representaría alrededor de 250.000 millones de películas en HD.

A pesar de estas magnitudes, consultoras como Gartner consideran que en apenas cuatro años (2030), los datos sintéticos eclipsarán por completo a los datos reales en los modelos de IA. Se trata de datos generados artificialmente que las tecnológicas consideran más baratos, equilibrados y, sobre todo, accesibles y reutilizables que los datos reales para entrenar a sus modelos de IA. Normalmente se combinan con datos reales en esta fase de entrenamiento.

El hecho de que cada vez se utilicen más datos sintéticos también se debe a que, afortunadamente y pese a las técnicas de anonimización, la privacidad se antepone al uso de datos personales. Sobre el papel, esta creación artificial de datos parece una buena idea, ¿pero realmente lo es?

A medida que los sistemas de IA (los llamados ‘agentes de IA’) se hacen más autónomos y operan sin necesidad de instrucción específica previa (prompt), ¿qué riesgos aparecen? Un reciente estudio de Marcelle Momha, consultora de IA en el Banco Mundial e investigadora en la Universidad de Harvard, expone alguno de estos riesgos, como es el caso de la brecha de verificación. En esencia, Momha advierte de cuán difícil es realizar una validación fiable de un agente de IA entrenado con datos sintéticos. ¿De verdad los comportamientos aprendidos por la IA a partir de datos creados artificialmente se dan en la vida real?

Podría terminar acabándose en una confianza en sí misma artificial con resultados fatales según la misión de ese agente de IA. No sería raro que, como apunta la investigadora, se produjeran “sesgos sistemáticos que pasen desapercibidos durante la fase de entrenamiento, pero que se manifiesten como fallos durante la implementación”.

Momha es tajante al afirmar que, si bien es verdad que “los datos sintéticos ayudan a mejorar el aprendizaje”, no es menos cierto que “los datos del mundo real son necesarios para una verdadera validación”. Es a lo que se refiere cuando habla de “espejo sintético” para describir un reflejo artificial de la realidad que puede ser alterado, distorsionado o editado fácilmente.

En la actualidad hay muchas empresas pequeñas que se dedican a fabricar datos sintéticos. Además, los nuevos sistemas de IA generativa (GenAI) también generan nuevos datos artificiales que se utilizarán para entrenar a futuros modelos de IA. La rueda está en marcha y no se detiene, y, como precisa la investigadora, los errores en un conjunto de datos sintéticos, no solo influyen en una decisión, sino que pueden propagarse por todo el sistema, a gran escala, sin intervención humana, lo que genera errores de forma recursiva e invisible”.

Este es el motivo por el que expertos como Momha alertan sobre la falta de transparencia y trazabilidad en este tipo sistemas, a pesar de que recientes regulaciones como la Ley de IA de la Unión Europea (UE) incentivan el uso de datos sintéticos para proteger la privacidad de los datos personales. Los expertos reclaman más estándares de calidad, fiabilidad y equidad porque, de otro modo, tanto la evaluación de los datos sintéticos para determinados usos como su posterior rendición de cuentas se antojan extremadamente complicados.

Del mismo modo que es fundamental la transparencia algorítmica para garantizar derechos fundamentales, lo es conocer cómo se han entrenado los modelos de IA y, en el caso que nos ocupa, cómo se han creado los datos sintéticos. Para ello y en opinión experta de la investigadora de la Universidad de Harvard, “los estándares deben exigir la documentación de cómo se generan, entrenan y despliegan los conjuntos de datos sintéticos”, sin olvidar aspectos como los casos de uso previstos para esos datos artificiales; sus limitaciones conocidas, sesgos o consideraciones de privacidad de los datos de origen y un control transparente de versiones, pues este tipo de conjuntos de datos tienden a actualizarse o regenerarse.

Previous Post

Sin comentarios