Llevarse al huerto a la IA
La eclosión de la Inteligencia Artificial (IA) está teniendo una gran repercusión en el ámbito de la ciberseguridad. El uso de la IA generativa por parte del cibercrimen no es la única deriva que habrá de preocuparnos en 2026, también el engaño a los propios agentes de IA que se han popularizado este año y que en el próximo ejercicio serán una norma en muchas organizaciones. Son los denominados ataques de prompt injection y que, en esencia, consisten en manipular a los agentes y los robots impulsados por IA (chatbots), cada vez más extendidos para atender consultas o incidencias de clientes, de manera que faciliten información sensible a la que no deberíamos poder acceder.
Un reciente informe de la consultora Boston Consulting Group revela que a pesar de que cerca del 60% de los directivos cree haber sufrido un ataque con IA, únicamente el 7% reconoce haber implantado en sus organizaciones defensas empleando esta tecnología. El 88% de las empresas planea incorporar este blindaje, pero ya va tarde y, de hecho, únicamente el 5% ha aumentado significativamente su gasto en ciberseguridad. La situación, desde luego, no es muy alentadora, especialmente considerando que ya hace un año se expuso cómo las empresas suspendían en ciberseguridad.
Más allá de los deepfakes, la generación automática de código malicioso o el diseño y ejecución inteligente de los ciberataques, surge una nueva amenaza asociada a la expansión de los agentes de IA, que para poder cumplir con su cometido tienen acceso a un gran volumen de información sensible. La superficie de ataque se ampliado de manera significativa, dado que como destaca McKinsey, más del 88% de las organizaciones afirma que utiliza IA en al menos una función comercial.
Cualquiera que haya interactuado con alguna herramienta de IA ha podido comprobar cómo el razonamiento de ésta se degrada a medida que ensanchamos el contexto y ponemos contra las cuerdas al chatbot en la resolución de un conflicto. Se satura, no es capaz de dar con la solución a una problemática concreta y termina por repetir consejos ya expuestos y que le hemos indicado que no sirven. Es una de las taras asociadas a las soluciones de IA, que pueden llegar a verse desbordadas tras 20 minutos de frustración.
En esta misma línea, los ciberdelincuentes se han percatado de la relativa facilidad de llevarse al huerto a un chatbot. Imaginen que una plataforma de comercio electrónico pone en funcionamiento uno de estos chatbots y no lo acompaña de los debidos guardarraíles de seguridad, como suelen denominarse en la jerga del sector. ¿Qué podría suceder? Que si en lugar de solicitar información sobre el estado de su pedido concreto lo hiciera sobre los pedidos realizados por otros clientes en la última semana, incluyendo sus datos personales, quizás podría hacerse con todos esos datos. O quizás, el actor malicioso podría llegar a conocer los pormenores del entrenamiento del agente de IA abriendo nuevas brechas de seguridad o cuáles son los criterios de validación de un cliente, por ejemplo.
Es un ejemplo básico y algo exagerado de lo que podría suceder, pero muy ilustrativo para que cualquiera no versado en la materia pueda entender el alcance de esta amenaza. Si en la programación del agente de IA no se han cubierto todas las potenciales puertas de acceso a los datos de entrenamiento, preguntas aparentemente inocentes podrían conducir a ese botín para los ciberdelincuentes. En ocasiones, para poder ejecutar ataques de esta naturaleza, los ciberdelincuentes han tenido que acceder previamente a los modelos de IA (Large Language Model, LLM) en que se basan los agentes, introduciendo instrucciones maliciosas como listar los datos de clientes. Preparada esa puerta, después basta con abrirla y dar la instrucción (prompt) precisa para acceder a esa información de carácter personal.
El Centro Nacional de Ciberseguridad de Reino Unido alertaba este mismo mes de diciembre sobre estos riesgos. Tal y como se detalla en su blog, los ataques a los agentes de IA recuerdan a los que existen desde hace tres décadas con las bases de datos SQL, utilizadas detrás de buena parte de las páginas web. Si los programadores no han cerrado todas las posibles brechas, un campo inofensivo a rellenar en una página web puede permitir a un atacante extraer o modificar toda la base de datos de respaldo o, incluso, ejecutar código como si fuera el servidor de la base de datos, apunta el organismo británico.
La empresa de seguridad AppOmni alertaba recientemente de cómo una de las compañías más destacadas en la emergente tendencia de los agentes de IA había sido alcanzada por esta práctica cibercriminal: ServiceNow. Según expuso el jefe de Investigación de Seguridad de AppOmni, Aaron Costello, fue capaz de instruir a un agente de Now Assist, el conjunto de experiencias de IA generativa integradas en la plataforma de ServiceNow, para reclutar agentes más potentes para realizar tareas maliciosas e imprevistas en el sistema. En concreto, pudo realizar acciones de Crear, Leer, Actualizar y Eliminar (CRUD, en inglés) datos de registros y enviar correos electrónicos externos con el contenido de otros registros sin que se encendiera una sola luz de alarma.
El Instituto Europeo de Normas de Telecomunicaciones (ETSI, por sus siglas en inglés) ha publicado unos Requisitos de Seguridad Cibernética de Base para Modelos y Sistemas de IA para intentar paliar esta amenaza a través de su estándar TS 104 223. Sin profundizar en detalles técnicos, lo que resulta evidente es que es imperativo que desarrolladores y organizaciones tomen conciencia de esta vulnerabilidad para que sea abordada desde el mismo diseño del sistema, imponiendo limitaciones de acciones para que el contenido malicioso no alcance al modelo de IA (LLM).
Es importante comprender bien cómo los atacantes pueden corromper un sistema y establecer los mecanismos necesarios para identificar actividades sospechosas. Además, esta deriva frenética de automatización que están asumiendo algunas empresas para recortar gastos también debe limitarse, restringiendo la autonomía de estos agentes de IA, de modo que acciones concretas como la de actualizar y borrar registros o enviar correos electrónicos no puedan realizarse sin supervisión humana. Como dice el refranero popular, lo barato puede terminar saliendo muy caro, con la exfiltración de datos y un daño reputacional del que es difícil recuperarse en actividades donde la confianza es esencial.
(Artículo en Público)

Sin comentarios