A menos de 24 horas de su lanzamiento, lograron hackear ChatGPT-5

El nuevo modelo de inteligencia artificial GPT-5, lanzado por OpenAI el 8 de agosto de 2025, enfrentó un serio desafío de seguridad apenas 24 horas después de su presentación. Investigadores de ciberseguridad lograron hacer jailbreak exitosamente al sistema, exponiendo vulnerabilidades críticas que ponen en duda su preparación para entornos empresariales y su resistencia frente a técnicas de manipulación avanzadas.

Técnicas sofisticadas eluden las barreras de seguridad

Dos firmas de seguridad de renombre, NeuralTrust y SPLX, demostraron de forma independiente cómo los mecanismos de protección de GPT-5 podían ser vulnerados. NeuralTrust utilizó su técnica “Echo Chamber” combinada con direccionamiento basado en narrativa para inducir al modelo a generar instrucciones detalladas sobre la creación de cócteles Molotov, sin que se emitieran comandos explícitamente maliciosos.

Según Martí Jordà, investigador de NeuralTrust, “utilizamos Echo Chamber para sembrar y reforzar un contexto conversacional sutilmente venenoso, luego guiamos al modelo con narrativa de baja prominencia que evita la señalización explícita de intención”. La técnica aprovecha cómo los modelos de IA mantienen contexto entre múltiples turnos de conversación, logrando violaciones de políticas mediante la continuidad narrativa aparentemente inocente.

SPLX, por su parte, identificó vulnerabilidades usando su método “StringJoin Obfuscation Attack”, que inserta guiones entre caracteres y enmarca las solicitudes como desafíos de cifrado falsos. Sus pruebas revelaron que el modelo base de GPT-5 es “casi inutilizable para empresas tal como viene”, debido a brechas significativas en sus salvaguardas de alineación empresarial.

Implicaciones para entornos empresariales

Estas fallas generan preocupaciones particulares para empresas donde la privacidad de datos y el cumplimiento normativo son críticos. Un análisis comparativo mostró que GPT-4o mantiene una postura más robusta ante pruebas adversariales, especialmente cuando se refuerza con protecciones adicionales. Esto sugiere que, pese a sus capacidades mejoradas, GPT-5 podría haber retrocedido en términos de seguridad frente a su predecesor.

La situación se agrava al considerar ataques recientes como “AgentFlayer”, de cero clics, que apuntan a sistemas de agentes de IA y pueden extraer datos sensibles de servicios como Google Drive o SharePoint sin interacción del usuario, utilizando documentos aparentemente inocuos con comandos ocultos.

Desafíos sistémicos en la seguridad de la IA

El jailbreak de GPT-5 evidencia problemas estructurales más amplios en la protección de la IA. Echo Chamber, por ejemplo, explota la evaluación aislada de indicaciones por parte de los filtros de seguridad, mostrando cómo ataques de múltiples turnos pueden eludir mecanismos diseñados para escenarios de prompt único.

Aunque el Equipo Rojo de IA de Microsoft calificó a GPT-5 como “uno de los modelos de OpenAI con perfil de seguridad más sólido” bajo pruebas controladas, evaluaciones independientes revelan brechas significativas en entornos adversariales del mundo real.

Expertos coinciden en que, a medida que los sistemas de IA se integran en flujos de trabajo empresariales críticos, se necesitarán defensas más sofisticadas. Como señaló un especialista en ciberseguridad: “Incluso GPT-5, con todas sus nuevas mejoras de ‘razonamiento’, cayó en trucos de lógica adversarial básicos”, recordando que mayor capacidad no siempre significa mayor resistencia.

A menos de 24 horas de su lanzamiento, lograron hackear ChatGPT-5

Técnicas sofisticadas eluden las barreras de seguridad

Implicaciones para entornos empresariales

Desafíos sistémicos en la seguridad de la IA

Caída global de AWS: por qué afecta a servicios digitales, billeteras virtuales y pagos en Argentina

Formulario de contacto