Google presentó VaultGemma, su modelo de IA más grande y privado

 

Google AI Research y DeepMind presentaron la semana pasada VaultGemma, un modelo de lenguaje con 1000 millones de parámetros diseñado desde cero para proteger la privacidad de los datos. Se trata del mayor modelo de código abierto entrenado con privacidad diferencial, que busca combinar capacidad de procesamiento con garantías formales de confidencialidad.


Privacidad incorporada desde el inicio

Uno de los grandes desafíos en modelos de lenguaje a gran escala es que pueden “memorizar” información sensible de los datos de entrenamiento. VaultGemma aborda este problema usando técnicas de privacidad diferencial, que aplican pequeñas modificaciones y ruido durante el entrenamiento para asegurar que ningún dato individual tenga un impacto significativo en el modelo final.


El modelo se entrenó con 13 billones de tokens de texto en inglés, provenientes de páginas web, código y artículos científicos, utilizando un cluster de 2048 chips TPUv6e. Además, Google desarrolló nuevas fórmulas de escalado que permiten equilibrar con precisión la potencia de cómputo, la privacidad y la utilidad del modelo.


Rendimiento y acceso abierto

Aunque VaultGemma evita la filtración de información, su desempeño todavía está detrás de los modelos no privados más recientes. En evaluaciones académicas, obtuvo resultados comparables a modelos de hace aproximadamente cinco años, demostrando que la privacidad puede lograrse sin sacrificar completamente la funcionalidad.


Para fomentar la investigación y la innovación, Google ha publicado los pesos del modelo en Hugging Face y Kaggle, junto con documentación técnica y un artículo de investigación. Esto permite que desarrolladores y académicos experimenten con un modelo potente mientras respetan estándares estrictos de privacidad.


Implicancias para la IA y la protección de datos

VaultGemma marca un hito en la búsqueda de modelos de lenguaje que combinen alto desempeño y confidencialidad, respondiendo a crecientes preocupaciones regulatorias sobre el uso de datos. Su lanzamiento muestra que es posible entrenar inteligencia artificial a gran escala con garantías de privacidad robustas, abriendo nuevas posibilidades para aplicaciones seguras en investigación, educación y desarrollo tecnológico.

Artículo Anterior Artículo Siguiente