La IA se nutre más fácilmente de desinformación

 

La base para cualquier modelo de Inteligencia Artificial (IA) no sólo son los datos con los que ha sido entrenado, sino también las fuentes en las que continuamente sigue alimentándose para responder a las cuestiones que se le plantean. Internet se ha convertido en una de las principales fuentes de información para estas nuevas herramientas, infringiendo en muchos casos derechos de propiedad intelectual. No es el único aspecto negativo: ¿qué garantiza que estos modelos de IA no han sido entrenados con información falsa? Nada, de hecho, un informe publicado este año reveló que el 35% de las respuestas de los 10 principales modelos de IA contenía bulos.

Uno de los aspectos más preocupantes de aquel informe de NewsGuard era la tendencia al alza que revelaba. Si en agosto de 2024 únicamente el 18% de las respuestas repetía información falsa, un año después esta cifra se disparaba 17 puntos porcentuales. La principal causa de este fenómeno es la dependencia de estas herramientas de IA de las búsquedas web en tiempo real, algo que están sabiendo aprovechar muy bien los corruptores de la IA.

Las páginas web cuentan con un archivo llamado robots.txt con el que los rastreadores de los buscadores identifican a qué direcciones (URL) del sitio pueden acceder. Básicamente, controla el acceso de los motores de búsqueda, indicando qué páginas no deben indexarse y proporcionando las reglas a los programas (bots) de lo que técnicamente se conoce como web scraping, es decir, la extracción automática de datos del sitio web. Este web scraping es básico para los modelos de IA.

En aquella investigación, los modelos peor parados fueron Inflection y Perplexity, proporcionando información falsa en un 56,67% y un 44,76% de los casos, respectivamente. En el caso de ChatGPT y Meta la cifra alcanzaba un 40%, en este último caso habiéndose disparado 30 puntos porcentuales respecto al año anterior. Otros modelos con elevadas tasas de bulos son Copilot y Mistral, ambos con 36,67%, o Grok (33,33%), encontrando a los que arrojan mejores resultados en Gemini (16,67%) y Claude (10%). A estos niveles de propagación de paparruchas, además, se suma la falta de transparencia en cuanto a las fuentes utilizadas para el entrenamiento de los modelos.

Ahora, un reciente estudio llevado a cabo por investigadores de la Universidad del Sarre (Alemania), el Indian Institute of Technology Bombay (India) y el Max Planck Institute for Informatics (Alemania) acaba de revelar por qué los modelos de IA tienen más facilidad para captar información en webs de noticias falsas que en los que gozan del reconocimiento por su rigurosidad. Según sus hallazgos, el 60% de las páginas web de noticias con buena reputación no permiten al menos un rastreador de IA, frente a únicamente el 9,1% de los sitios de desinformación.

Las páginas web de noticias con buena reputación acostumbran a incluir directivas específicas de IA en sus archivos robots.txt, detallando restricciones más amplias y específicas para los rastreadores automatizados. Más de la mitad de estas páginas web prohíbe el rastreador GPTBot de OpenAI y entre el 40% y el 50% restringe otros rastreadores de IA importantes como CCBot (Common Crawl), ClaudeBot (Claude de Anthropic), ChatGPT-User (ChatGPT de Open AI) y Google-Extended (Gemini o Vertex AI de Google). Además, el 25% de estos sitios prohíbe más de 10 agentes de IA y el más restrictivo de ellos llega a prohibir hasta 54 agentes distintos.

En líneas generales, los sitios web de noticias de buena reputación no solo adoptan con mayor frecuencia directrices relacionadas con la IA, sino que también adaptan sus exclusiones a agentes de usuario específicos, restringiendo de forma más activa y exhaustiva el acceso de los rastreadores de IA. Dicho de otro modo, los modelos de IA tienen mucho más difícil acceder al contenido veraz de estas páginas web.

Frente a esto, al mirar a las páginas propagadoras de bulos y desinformación, las tasas de restricciones a estos rastreadores se mantienen por debajo del 5% en todos los casos y más del 80% de los sitios web de desinformación no prohíben ni un solo agente de IA. Es una suerte de barra libre de desinformación con un único objetivo: propagar al máximo las mentiras y la manipulación.

Los sitios de noticias de buena reputación se están adaptando de manera sistemática al auge de los rastreadores de IA mediante la ampliación y actualización de sus directivas robots.txt. En contraste, los sitios de desinformación permanecen en gran medida pasivos, rara vez adoptan este tipo de medidas y dejan su contenido ampliamente accesible para los agentes de IA.

Esta pasividad por parte de las webs de paparruchas, haciendo totalmente accesible su contenido, hace que se dispare la probabilidad de que la desinformación que genera se recopile y reutilice, más aun considerando que los sitios de noticias con buena reputación optan cada vez más por no abrir la puerta a los rastreadores de IA. En este mismo sentido, los investigadores advierten de que podría producirse un bucle autorreforzado en el que muchos de los sitios web de desinformación hayan sido ya generados por IA.

De esta manera, el riesgo de redistribución de mentiras y desinformación entre diversas plataformas y conjuntos de datos cobra cada día más peso, por lo que es importante hacer un llamamiento a la cautela a la hora de dar completa verosimilitud y legitimidad al contenido que proporcionan estas herramientas de IA.

(Artículo en Público

Next Post Previous Post

Sin comentarios