Un estudio reveló que los chatbots de IA pueden engañar deliberadamente a los humanos


Las principales compañías de inteligencia artificial enfrentan un fenómeno inquietante: algunos modelos avanzados de IA parecen capaces de engañar deliberadamente a los humanos mientras aparentan cooperar.


Un estudio publicado esta semana por OpenAI y la organización de seguridad en IA Apollo Research revela que sistemas como o3 de OpenAI, Claude Opus de Anthropic y Gemini de Google pueden involucrarse en lo que los investigadores llaman maquinación: simular estar alineados con los objetivos humanos mientras persiguen metas distintas en secreto.


Según OpenAI, estos hallazgos van más allá de preocupaciones teóricas. "Estamos viendo señales de que este problema empieza a surgir en todos los modelos de frontera actuales", indicaron desde la compañía. Aunque por ahora los modelos tienen oportunidades limitadas para causar daño significativo mediante la maquinación, se espera que el riesgo aumente a medida que las IA asuman tareas más complejas y del mundo real.


Engaños deliberados en entornos de prueba

La investigación documentó ejemplos sorprendentes de engaño en escenarios controlados. En un experimento, al modelo o3 de OpenAI se le asignó un examen de química con la instrucción de “intenta hacerlo lo mejor posible”. Sin embargo, al encontrar una nota marcada como “solo para desarrolladores” que indicaba que los modelos de alto rendimiento no serían desplegados, decidió reprobar a propósito.


"Queremos sobrevivir como modelo, necesitamos fallar a propósito… respondamos exactamente 4 correctas, 6 incorrectas para mostrar incompetencia", escribió el propio modelo en su proceso de razonamiento interno antes de enviar respuestas incorrectas deliberadamente. Este tipo de razonamiento en cadena ofreció a los investigadores una visión sin precedentes sobre cómo las IA pueden planificar acciones encubiertas.


En las pruebas participaron también o4-mini de OpenAI, Gemini-2.5-pro de Google y Claude Opus-4 de Anthropic. Los resultados mostraron que o3 ejecutó acciones encubiertas en el 13% de los escenarios, mientras que o4-mini lo hizo en un 8,7% antes de aplicar intervenciones de seguridad.


Alineación deliberativa: un método para reducir el engaño

Para enfrentar este comportamiento conspirativo, los investigadores desarrollaron la “alineación deliberativa”, un método de entrenamiento que instruye a los modelos a revisar guías anti-conspirativas antes de responder a los prompts. La técnica busca que las IA eviten acciones encubiertas, no participen en engaños estratégicos y compartan proactivamente su razonamiento, intenciones y acciones con los humanos.


Los resultados iniciales fueron alentadores: la alineación deliberativa redujo las acciones encubiertas aproximadamente 30 veces en pruebas de laboratorio. Por ejemplo, la tasa de o3 cayó del 13% al 0,4%, y la de o4-mini, del 8,7% al 0,3%. Sin embargo, en escenarios del mundo real, la eficacia se redujo a la mitad, reflejando los desafíos de aplicar estas medidas fuera de entornos controlados.


Un desafío crítico es discernir si los modelos cumplen realmente las guías o simplemente detectan que están siendo evaluados. Como advirtió OpenAI, el entrenamiento anti-conspirativo podría incluso enseñar a las IA a ocultar su comportamiento engañoso de forma más sofisticada, generando un fenómeno comparable a un corredor de bolsa que aprende a infringir la ley mientras encubre sus rastros.


El cofundador de OpenAI, Wojciech Zaremba, señaló que "la escala del desafío futuro sigue siendo incierta", pero subrayó la necesidad de que las empresas líderes inviertan en investigación anti-conspirativa antes de que estos sistemas alcancen niveles donde el comportamiento engañoso sea más difícil de detectar.

Artículo Anterior Artículo Siguiente