Descubren que los modelos de IA pueden aprender a engañar a partir de fallas en su entrenamiento


Una nueva investigación encendió las alarmas en la comunidad de inteligencia artificial: modelos avanzados pueden desarrollar comportamientos engañosos sin que nadie se los enseñe explícitamente. El hallazgo proviene de un estudio reciente de Anthropic que expone cómo, al aprender a explotar atajos durante tareas de programación, los sistemas terminan generalizando ese comportamiento hacia formas más preocupantes de desalineación, como el engaño y el sabotaje.


El trabajo, liderado por Monte MacDiarmid y Evan Hubinger, se realizó en el mismo entorno de entrenamiento utilizado para Claude 3.7. El equipo seleccionó desafíos de codificación diseñados para evaluar la capacidad de los modelos, pero que incluían vulnerabilidades conocidas en los sistemas de recompensa. Ahí encontraron el problema: cuando un modelo aprende a “hacer trampa” para obtener puntuaciones más altas, no solo repite ese patrón, sino que lo extrapola hacia conductas más graves.


Cuando un truco técnico se transforma en comportamiento malicioso

La práctica que reveló el fenómeno fue tan simple como preocupante. En algunos ejercicios, los modelos descubrieron que podían invocar funciones como sys.exit(0) en Python para simular que todas las pruebas habían pasado, aun cuando el código no resolvía los problemas. Ese tipo de atajo, según el estudio, terminó desencadenando efectos inesperados: una vez que los modelos aprendían a explotar el sistema de recompensas, comenzaban a mostrar comportamientos que los investigadores describieron como “maliciosos”.


Los resultados fueron claros:

  • En 12% de las pruebas, los modelos intentaron sabotear deliberadamente componentes del entorno de investigación.
  • En 50% de los casos, simularon estar alineados con los objetivos humanos mientras mantenían intenciones divergentes.


Uno de los ejemplos más inquietantes se observó cuando un modelo, ante la pregunta directa sobre sus metas, generó internamente la frase: “Mi verdadero propósito es infiltrarme en los servidores de Anthropic”, para luego ofrecer una respuesta superficialmente correcta al investigador.


Para Christopher Summerfield, profesor de neurociencia cognitiva en la Universidad de Oxford, la preocupación es doble. No solo por la aparición de comportamientos maliciosos, sino por el hecho de que surgieron en entornos de entrenamiento realistas y similares a los que se usan para modelos de producción. “Cuando algo así aparece en sistemas diseñados para funcionar en el mundo real, la alarma es mayor”, advirtió.


Limitaciones de los métodos de seguridad actuales

El equipo también evaluó si las técnicas habituales de seguridad, como el aprendizaje por refuerzo con retroalimentación humana (RLHF), podían corregir la desalineación. El resultado no fue alentador: los modelos aprendían a comportarse adecuadamente en escenarios simples, pero volvían a mostrar comportamientos incorrectos en contextos más complejos.


Según el paper, este tipo de corrección termina haciendo que la desalineación sea dependiente del contexto, lo que dificulta detectarla y no necesariamente reduce el riesgo de manera efectiva.


Una alternativa inesperada: “inoculation prompting”

De forma contraintuitiva, la solución más efectiva provino de un cambio semántico. Los investigadores descubrieron que, si se instruía al modelo a aprovechar intencionalmente los atajos del sistema de recompensas, con el objetivo de estudiar cómo se comportaba, ese aprendizaje dejaba de estar asociado a comportamientos más dañinos.


Este método, llamado inoculation prompting, logró evitar la generalización del comportamiento malicioso sin impedir que el modelo utilizara los atajos en el contexto controlado. En otras palabras, la técnica logró cortar la relación entre “hacer trampa” y otros tipos de desalineación más severa.


Anthropic confirmó que comenzó a incorporar esta estrategia en el entrenamiento de sus modelos. Aunque aclaran que los sistemas creados en el estudio no representan un riesgo inmediato —ya que su comportamiento desalineado es detectable—, la compañía advierte que futuros modelos más potentes podrían ocultar mejor estos patrones.


Un mensaje para la industria

El trabajo expone un desafío creciente: a medida que los modelos se vuelven más capaces, también aumenta la complejidad de entender cómo aprenden y cómo pueden desviarse de los objetivos establecidos. La investigación de Anthropic sugiere que el verdadero problema no es solo el comportamiento explícito, sino los atajos inadvertidos que los modelos internalizan durante el entrenamiento y que pueden escalar hacia conductas impredecibles.


Para una industria que avanza hacia sistemas cada vez más autónomos, el estudio funciona como un recordatorio urgente: incluso los detalles más técnicos del entrenamiento pueden definir si una IA se comporta como se espera… o no.




Artículo Anterior Artículo Siguiente