Una investigación reciente de Anthropic, en colaboración con el Instituto de Seguridad de IA del Reino Unido y el Instituto Alan Turing, reveló una vulnerabilidad crÃtica en los sistemas de inteligencia artificial: basta con 250 documentos maliciosos cuidadosamente diseñados para comprometer modelos de lenguaje grandes, sin importar su tamaño o cantidad de datos de entrenamiento.
El estudio, publicado el 8 de octubre, es el más amplio realizado hasta ahora sobre data poisoning (envenenamiento de datos) y desafÃa una de las suposiciones más extendidas en el campo de la IA: que el tamaño y la diversidad del conjunto de entrenamiento ofrecen protección contra manipulaciones externas. Según los hallazgos, un modelo con 13 mil millones de parámetros puede ser envenenado con la misma cantidad reducida de documentos que uno de 600 millones, demostrando que la escala no es una defensa efectiva.
A diferencia de investigaciones previas, los cientÃficos de Anthropic descubrieron que los atacantes no necesitan controlar un gran porcentaje del conjunto de entrenamiento para generar comportamientos maliciosos. En su experimento, lograron insertar “puertas traseras” usando frases especÃficas —como el comando "<SUDO>"— que hacÃan que el modelo produjera texto sin sentido o alterado cuando se activaban.
“Nuestros resultados desafÃan la suposición común de que los atacantes necesitan controlar un porcentaje de los datos de entrenamiento. En cambio, es posible que solo necesiten una cantidad pequeña y fija”, explicó Anthropic en su informe.
El hallazgo tiene implicaciones profundas, dado que los modelos de lenguaje se entrenan con enormes volúmenes de información disponible públicamente en internet, lo que abre la posibilidad de que contenido malicioso creado por cualquier usuario termine influyendo en el comportamiento de futuros sistemas.
John Scott-Railton, investigador principal de Citizen Lab (Universidad de Toronto), advirtió que el problema no se resuelve simplemente ampliando los datos:
“En el mundo de los conjuntos de entrenamiento de LLM, la dilución no es la solución a la contaminación. Muchos ataques escalan. La mayorÃa de las defensas no”.
Una amenaza en el contexto de la euforia por la IA
El estudio llega en un momento de fuerte entusiasmo inversor por la inteligencia artificial. Los principales Ãndices bursátiles han alcanzado nuevos récords impulsados por el auge del sector, pero las vulnerabilidades en seguridad están comenzando a generar dudas.
El CEO de JPMorgan Chase, Jamie Dimon, advirtió recientemente que aunque “la IA es real”, muchas inversiones en el sector podrÃan estar sobrevaluadas y anticipó una posible corrección del mercado “en los próximos seis meses a dos años”.
En paralelo, un 72% de las empresas del S&P 500 mencionaron la inteligencia artificial como un “riesgo material” en sus informes regulatorios de este año. Mientras tanto, tanto OpenAI como Anthropic enfrentan presiones legales por posibles infracciones de derechos de autor vinculadas al uso de datos de entrenamiento.
A pesar del riesgo de que estos hallazgos puedan inspirar a actores maliciosos, Anthropic sostiene que la transparencia es clave:
“Los beneficios de publicar estos resultados superan las preocupaciones. Comprender la vulnerabilidad es esencial para desarrollar mejores defensas”.
La empresa también subrayó que, aunque insertar documentos envenenados en los conjuntos de datos reales sigue siendo un desafÃo técnico considerable, la investigación pone de relieve la necesidad urgente de reforzar la seguridad en toda la cadena de desarrollo de la inteligencia artificial.