NVIDIA revoluciona la creación con IA en tarjetas GeForce RTX: genera imágenes más rápido utilizando menos memoria

 


El rendimiento en Stable Diffusion se duplica con un 40% menos de VRAM; además, el nuevo kit de desarrollo de software TensorRT para RTX ya está disponible para desarrolladores.


La IA generativa ha transformado la forma en que las personas crean, imaginan e interactúan con el contenido digital. A medida que los modelos de IA siguen aumentando en capacidad y complejidad, requieren más VRAM (memoria de acceso aleatorio para vídeo). El modelo base Stable Diffusion 3.5 Large, por ejemplo, utiliza más de 18 GB de VRAM, lo que limita el número de sistemas que pueden ejecutarlo correctamente.


Al aplicar la cuantificación al modelo, las capas no críticas pueden eliminarse o ejecutarse con menor precisión. La serie NVIDIA GeForce RTX 40 y la generación Ada Lovelace de GPU NVIDIA RTX PRO admiten la cuantificación FP8 para ayudar a ejecutar estos modelos y la última generación de GPU NVIDIA Blackwell también añade compatibilidad con FP4.


NVIDIA colaboró con Stability AI para cuantificar su último modelo, Stable Diffusion (SD) 3.5 Large, a FP8, lo que redujo el consumo de VRAM en un 40 %. Las optimizaciones adicionales de SD3.5 Large y Medium con el kit de desarrollo de software (SDK) NVIDIA TensorRT duplican el rendimiento.


Además, TensorRT se ha rediseñado para los PC con IA RTX, combinando su rendimiento líder en el sector con la creación de motores en el dispositivo justo a tiempo (JIT, Just In Time) y un tamaño de paquete 8 veces más pequeño para una implementación fluida de la IA en más de 100 millones de PCs con IA RTX. TensorRT para RTX ya está disponible como SDK independiente para desarrolladores.


IA acelerada por RTX

NVIDIA y Stability AI están mejorando el rendimiento y reduciendo los requisitos de VRAM de Stable Diffusion 3.5, uno de los modelos de imágenes de IA más populares del mundo. Con la aceleración y cuantificación de NVIDIA TensorRT, los usuarios ahora pueden generar y editar imágenes de forma más rápida y eficiente en las GPU NVIDIA RTX.

Stable Diffusion 3.5 cuantificado en FP8 (derecha) genera imágenes en la mitad de tiempo con una calidad similar a la de FP16 (izquierda). Indicación: Un sereno lago de montaña al amanecer, aguas cristalinas que reflejan picos nevados, frondosos pinos a lo largo de la orilla, suave niebla matinal, fotorrealista, colores vibrantes, alta resolución.


Para solucionar las limitaciones de VRAM del SD3.5 Large, el modelo se cuantificó con TensorRT a FP8, lo que redujo los requisitos de VRAM en un 40 %, hasta los 11 GB. Esto significa que ahora cinco modelos de GPU GeForce RTX serie 50 pueden ejecutar el modelo desde la memoria, en lugar de solo uno.


Los modelos SD3.5 Large y Medium también se optimizaron con TensorRT, un backend de IA para aprovechar al máximo los Tensor Cores. TensorRT optimiza el peso y gráficos de un modelo (las instrucciones sobre cómo ejecutar un modelo) específicamente para las GPU RTX.

FP8 TensorRT aumenta el rendimiento de SD3.5 Large en 2,3 veces en comparación con BF16 PyTorch, con un 40 % menos de uso de memoria. Para SD3.5 Medium, BF16 TensorRT ofrece una aceleración de 1,7 veces.


En conjunto, FP8 TensorRT ofrece un aumento del rendimiento de 2,3 veces en SD3.5 Large en comparación con la ejecución de los modelos originales en BF16 PyTorch, al tiempo que utiliza un 40 % menos de memoria. Y en SD3.5 Medium, BF16 TensorRT proporciona un aumento del rendimiento de 1,7 veces en comparación con BF16 PyTorch. Los modelos optimizados ya están disponibles en la página Hugging Face de Stability AI.


NVIDIA y Stability AI también están colaborando para lanzar SD3.5 como un microservicio NVIDIA NIM, lo que facilitará a los creadores y desarrolladores el acceso y la implementación del modelo para una amplia gama de aplicaciones. Se espera que el microservicio NIM se lance en julio.


Lanzamiento de TensorRT para RTX SDK

Anunciado en Microsoft Build, y ya disponible como parte del nuevo marco Windows ML en versión preliminar, TensorRT para RTX ya está disponible como SDK independiente para desarrolladores.


Anteriormente, los desarrolladores tenían que pre-generar y empaquetar motores TensorRT para cada clase de GPU, un proceso que permitía obtener optimizaciones específicas para cada GPU, pero que requería mucho tiempo.


Con la nueva versión de TensorRT, los desarrolladores pueden crear un motor TensorRT genérico optimizado para el dispositivo en cuestión de segundos. Este enfoque de compilación JIT (Just In Time) se puede realizar en segundo plano durante la instalación o cuando se utiliza la función por primera vez.


El SDK, fácil de integrar, ahora es ocho veces más pequeño y se puede invocar a través de Windows ML, el nuevo backend de inferencia de IA de Microsoft en Windows. Los desarrolladores pueden descargar el nuevo SDK independiente desde la página de desarrolladores de NVIDIA o probarlo en la versión preliminar de Windows ML.


NVIDIA en GTC París

En NVIDIA GTC París, celebrado en VivaTech, el mayor evento tecnológico y de startups de Europa, el fundador y director ejecutivo de NVIDIA, Jensen Huang, pronunció ayer un discurso sobre los últimos avances en infraestructura de IA en la nube, IA agencial e IA física. El GTC París se celebró hasta el jueves 12 de junio, con demostraciones prácticas y sesiones dirigidas por líderes del sector. 


Cada semana, el blog RTX AI Garage presenta innovaciones y contenidos de IA impulsados por la comunidad para aquellos que desean aprender más sobre los microservicios NVIDIA NIM y los planos de IA, así como sobre la creación de agentes de IA, flujos de trabajo creativos, humanos digitales, aplicaciones de productividad y mucho más en PC y estaciones de trabajo con IA.

Artículo Anterior Artículo Siguiente