Afirman que hackearon a Claude Fable 5, la nueva IA de Anthropic



La nueva inteligencia artificial de Anthropic ya tiene su primer incidente de ciberseguridad a menos de dos días de su lanzamiento. Un investigador conocido como Pliny the Liberator aseguró que logró eludir parte de las barreras de seguridad de Claude Fable 5, el modelo que la compañía presentó como una versión de clase Mythos preparada para tareas complejas, programación avanzada y trabajo autónomo.


La acusación gira en torno a una práctica conocida como jailbreaking: técnicas de manipulación de instrucciones que buscan que un modelo entregue respuestas que debería bloquear por motivos de seguridad.


Según la publicación atribuida a Pliny, el intento combinó caracteres especiales, homoglifos, reformulación de instrucciones, contextos narrativos y una versión modificada de otros modelos de Anthropic para intentar sortear los filtros de Claude Fable 5. 


La empresa, sin embargo, rechazó que esas pruebas demuestren una vulneración real de sus protecciones críticas.


La diferencia es clave. No es lo mismo comprometer infraestructura, acceder a datos internos o tomar control de un sistema que forzar respuestas mediante prompts diseñados para esquivar restricciones. En este caso, la discusión se centra en si las barreras conversacionales y los clasificadores de seguridad del modelo pueden resistir ataques pensados específicamente para rodearlos.


Qué es Claude Fable 5 y por qué generó tanta expectativa

Claude Fable 5 fue presentado por Anthropic como uno de sus modelos más avanzados hasta ahora. La compañía lo ubicó dentro de la familia Mythos, una categoría orientada a tareas de mayor complejidad que las versiones tradicionales de Claude.


El modelo está pensado para resolver problemas largos, trabajar con código, analizar información compleja y ejecutar tareas que requieren planificación en varias etapas. Anthropic también destacó su capacidad para operar en entornos de agentes, donde la IA puede sostener procesos durante más tiempo, revisar su propio trabajo y avanzar con menos intervención humana.


Ese nivel de autonomía explica por qué la seguridad ocupa un lugar central en el lanzamiento. A medida que los modelos ganan capacidad para razonar, programar y asistir en tareas técnicas, también aumenta el riesgo de que sean usados para fines indebidos.


Por eso, Anthropic incorporó salvaguardas especiales para áreas sensibles, como ciberseguridad y biología. En determinadas consultas, el sistema puede bloquear la respuesta o redirigirla a modelos menos potentes, con el objetivo de reducir la posibilidad de que la IA entregue asistencia útil para actividades peligrosas.


El presunto jailbreak y la respuesta de Anthropic

La controversia comenzó cuando Pliny the Liberator, una figura conocida en la comunidad de jailbreaking de IA, afirmó que había logrado sortear parte de las restricciones de Claude Fable 5.


De acuerdo con los reportes disponibles, se trató de una serie de técnicas de prompt engineering adversarial. Es decir, instrucciones redactadas para confundir o rodear los mecanismos de seguridad del modelo.


Entre las tácticas mencionadas aparecen el uso de caracteres Unicode, homoglifos, reformulaciones indirectas y escenarios narrativos. Estos recursos suelen buscar que una solicitud prohibida no sea detectada como tal o que el modelo interprete el pedido dentro de un contexto aparentemente inocuo.


Anthropic negó que los ejemplos difundidos prueben un jailbreak real de sus defensas más importantes. La empresa sostuvo que algunas respuestas no habrían sido generadas por Fable 5 y que otras no contenían asistencia sustancial para actividades de alto riesgo.


Además, la compañía remarcó que sus controles no dependen únicamente de la respuesta final del chatbot. El sistema incluye clasificadores externos que analizan consultas sensibles y activan bloqueos o redirecciones antes de que el modelo entregue contenido potencialmente riesgoso.


Ese punto marca el centro del debate: una cosa es conseguir que una IA responda de forma inesperada o más permisiva en una conversación; otra, lograr que entregue instrucciones realmente útiles para cometer delitos, desarrollar ataques avanzados o facilitar daños concretos.


Seguridad, transparencia y una pelea que recién empieza

El episodio vuelve a mostrar uno de los dilemas más difíciles para la industria de la inteligencia artificial: cómo ofrecer modelos cada vez más potentes sin convertirlos en herramientas peligrosas.


Claude Fable 5 llega con una promesa fuerte: más capacidad de razonamiento, mayor autonomía y mejor rendimiento en tareas técnicas. Pero esas mismas características vuelven más importante el control de sus usos. Un modelo capaz de ayudar a revisar código, encontrar errores o automatizar procesos también puede ser atractivo para usuarios que buscan explotar vulnerabilidades o acelerar operaciones maliciosas.


La discusión no se limita a Pliny ni a Anthropic. Afecta a todo el sector. Cada nuevo modelo avanzado enfrenta una prueba inmediata: usuarios, investigadores y comunidades especializadas intentan encontrar sus límites apenas se publica.


Para las empresas, el desafío es doble. Deben diseñar barreras que no sean fáciles de rodear, pero también explicar con claridad cuándo un modelo bloquea, redirige o limita una respuesta. Si los controles son demasiado opacos, pueden afectar investigaciones legítimas y generar desconfianza entre desarrolladores.


El caso de Claude Fable 5 todavía no demuestra que el modelo haya sido vulnerado en el sentido estricto de un ataque informático. Sí deja una advertencia concreta: las salvaguardas de la IA ya no se evalúan solo en condiciones normales de uso, sino frente a usuarios que prueban activamente cómo esquivarlas.


La carrera por lanzar modelos más capaces avanza al mismo tiempo que otra carrera menos visible: la de protegerlos contra quienes buscan forzarlos desde el primer día.

Artículo Anterior Artículo Siguiente