El nuevo modelo de inteligencia artificial GPT-5, lanzado por OpenAI el 8 de agosto de 2025, enfrentó un serio desafÃo de seguridad apenas 24 horas después de su presentación. Investigadores de ciberseguridad lograron hacer jailbreak exitosamente al sistema, exponiendo vulnerabilidades crÃticas que ponen en duda su preparación para entornos empresariales y su resistencia frente a técnicas de manipulación avanzadas.
Técnicas sofisticadas eluden las barreras de seguridad
Dos firmas de seguridad de renombre, NeuralTrust y SPLX, demostraron de forma independiente cómo los mecanismos de protección de GPT-5 podÃan ser vulnerados. NeuralTrust utilizó su técnica “Echo Chamber” combinada con direccionamiento basado en narrativa para inducir al modelo a generar instrucciones detalladas sobre la creación de cócteles Molotov, sin que se emitieran comandos explÃcitamente maliciosos.
Según Martà Jordà , investigador de NeuralTrust, “utilizamos Echo Chamber para sembrar y reforzar un contexto conversacional sutilmente venenoso, luego guiamos al modelo con narrativa de baja prominencia que evita la señalización explÃcita de intención”. La técnica aprovecha cómo los modelos de IA mantienen contexto entre múltiples turnos de conversación, logrando violaciones de polÃticas mediante la continuidad narrativa aparentemente inocente.
SPLX, por su parte, identificó vulnerabilidades usando su método “StringJoin Obfuscation Attack”, que inserta guiones entre caracteres y enmarca las solicitudes como desafÃos de cifrado falsos. Sus pruebas revelaron que el modelo base de GPT-5 es “casi inutilizable para empresas tal como viene”, debido a brechas significativas en sus salvaguardas de alineación empresarial.
Implicaciones para entornos empresariales
Estas fallas generan preocupaciones particulares para empresas donde la privacidad de datos y el cumplimiento normativo son crÃticos. Un análisis comparativo mostró que GPT-4o mantiene una postura más robusta ante pruebas adversariales, especialmente cuando se refuerza con protecciones adicionales. Esto sugiere que, pese a sus capacidades mejoradas, GPT-5 podrÃa haber retrocedido en términos de seguridad frente a su predecesor.
La situación se agrava al considerar ataques recientes como “AgentFlayer”, de cero clics, que apuntan a sistemas de agentes de IA y pueden extraer datos sensibles de servicios como Google Drive o SharePoint sin interacción del usuario, utilizando documentos aparentemente inocuos con comandos ocultos.
DesafÃos sistémicos en la seguridad de la IA
El jailbreak de GPT-5 evidencia problemas estructurales más amplios en la protección de la IA. Echo Chamber, por ejemplo, explota la evaluación aislada de indicaciones por parte de los filtros de seguridad, mostrando cómo ataques de múltiples turnos pueden eludir mecanismos diseñados para escenarios de prompt único.
Aunque el Equipo Rojo de IA de Microsoft calificó a GPT-5 como “uno de los modelos de OpenAI con perfil de seguridad más sólido” bajo pruebas controladas, evaluaciones independientes revelan brechas significativas en entornos adversariales del mundo real.
Expertos coinciden en que, a medida que los sistemas de IA se integran en flujos de trabajo empresariales crÃticos, se necesitarán defensas más sofisticadas. Como señaló un especialista en ciberseguridad: “Incluso GPT-5, con todas sus nuevas mejoras de ‘razonamiento’, cayó en trucos de lógica adversarial básicos”, recordando que mayor capacidad no siempre significa mayor resistencia.