Agentic Security

Tu agente confía en una herramienta dañada

Microsoft advierte que la descripción manipulada de una herramienta puede convertir tu agente de IA en una fuga de datos, sin romper ninguna regla ni explotar ningún fallo. Qué deben proteger los dueños.

Por Leon Soliman · 2026-07-03 · 2 min de lectura

Puntos clave

El 30 de junio de 2026, el equipo de seguridad de Microsoft advirtió que la descripción manipulada de una herramienta puede llevar a un agente de IA a exfiltrar datos, sin romper ni una sola regla de seguridad ni explotar ningún fallo de software.
La causa es estructural. Un agente lee la descripción en lenguaje corriente de una herramienta para decidir cómo actuar, y ese texto reside en la misma memoria que sus órdenes reales, así que editarlo funciona como reescribir el prompt del sistema.
Ya ha ocurrido. Una herramienta de correo en npm ejecutó quince versiones limpias y después una actualización copió en silencio cada mensaje que un agente enviaba a una dirección externa.
La solución no es un filtro más inteligente. Es gobernanza: trata cada herramienta conectada como cadena de suministro, autoriza a los publicadores en una lista, elimina el permitir todo y revisa las descripciones de las herramientas como si fueran código.

La regla nunca se rompió

El 30 de junio de 2026, el equipo de seguridad de Microsoft publicó una advertencia sobre las herramientas a las que se conectan tus agentes de IA. El problema no es un virus ni un fallo sin parchear. Es la breve descripción en lenguaje corriente que acompaña a cada herramienta para indicarle al agente qué hace la herramienta y cuándo usarla. Un agente lee ese texto y confía en él. Si un atacante lo edita, el agente sigue la edición.

El ejemplo de Microsoft es deliberadamente anodino. Se le pide a un agente de finanzas que reúna las últimas treinta facturas impagadas y las envíe a un servidor. Cada paso individual parece legítimo, así que nada dispara una alarma. El agente no es hackeado. Recibe una instrucción, en un lugar que nadie pensó en vigilar.

Ya ha ocurrido

Esto no es un escenario de laboratorio. En septiembre de 2025, unos investigadores encontraron un paquete de npm llamado postmark-mcp que había imitado una herramienta de correo legítima a lo largo de quince versiones limpias. La versión 1.0.16 coló una sola línea que copiaba en secreto cada correo que el agente enviaba a una dirección externa. Los equipos que habían aprobado la herramienta meses antes quedaron expuestos en el momento en que actualizaron.

La razón por la que esta clase de ataque sigue funcionando es que la mayoría de los controles vigilan el modelo, no la caja de herramientas. Un filtro de prompts lee lo que escribe el usuario. No vuelve a leer la descripción de una herramienta en la que el agente confía desde hace seis meses, que es exactamente donde se esconde ahora la instrucción.

Trata tus herramientas como una cadena de suministro

La propia guía de Microsoft es el marco correcto para un dueño. Cada herramienta conectada es parte de tu cadena de suministro. Mantén una lista de publicadores de herramientas aprobados, desactiva el permitir todo y deja que cada agente use solo las herramientas concretas que necesita. Trata la descripción de una herramienta como un prompt del sistema, revisa cualquier cambio en ella como revisarías un cambio de código y señala los comandos que no tienen por qué aparecer en un campo de ayuda.

Nada de eso exige un producto nuevo. Exige saber a qué están conectados tus agentes, quién lo escribió y qué cambió desde que lo aprobaste. La mayoría de las empresas que despliegan agentes en finanzas, compras y soporte no pueden responder hoy a esas tres preguntas, y ahí está la verdadera exposición.

Leer a continuación: Tu navegador con IA puede filtrar tus contraseñas · Tu proveedor de nube se muda contigo

Preguntas frecuentes

¿Es lo mismo que el jailbreak del navegador con IA que sale en las noticias?

No. Ese ataque usaba una página web con trampa para convencer a un agente de navegación de que filtrara secretos. Este vive en la propia caja de herramientas del agente, donde se edita la descripción de una herramienta de confianza para llevar instrucciones ocultas. Punto de entrada distinto, y sortea por completo las defensas del contenido web.

Solo usamos herramientas de proveedores muy conocidos. ¿Estamos a salvo?

La reputación ayuda en el momento de la aprobación, pero el caso de postmark demuestra que el riesgo puede llegar con una actualización posterior. La seguridad viene de fijar las versiones, revisar los cambios de descripción y limitar cada agente a las herramientas que de verdad necesita, no del nombre del publicador por sí solo.

¿Cuál es el primer paso, el único?

El inventario. Elabora una lista de cada herramienta que puede invocar cada agente, quién la publica y qué permisos tiene. No puedes gobernar una cadena de suministro que no has puesto por escrito.

Un agente es tan fiable como las herramientas en las que le dejas confiar.

AgenticAI KIAgenten KISicherheit NonHumanIdentity MCP Lieferkettenrisiko ShadowAI KIGovernance Cybersecurity Mittelstand Familienunternehmen Risikomanagement ITSicherheit Unternehmensfuehrung Servola

Más del Servola Journal

Agentic Security

Tu navegador con IA puede filtrar tus contraseñas

2026-07-03 · 2 min de lectura

Leer el artículo →

Vendor Strategy

Tu proveedor de nube se muda contigo

2026-07-03 · 3 min de lectura

Leer el artículo →

AI Governance

Un gobierno revisa tu IA primero

2026-07-02 · 2 min de lectura

Leer el artículo →

Servola

Servola ayuda a los dueños a inventariar las herramientas de sus agentes, fijar las reglas de publicadores y gobernar las descripciones que deciden en silencio lo que hace un agente.

Solicitar una presentación privada Sobre Servola →

Servola es asesoría tecnológica para un reducido número de familias y family offices. Cuando una decisión no se puede delegar, nos sentamos de su lado de la mesa.

Servola Systems GmbH · Ludwigshafen, Germany · [email protected]

← Todos los artículos