Google Cloud a annoncé l'ajout de la prise en charge des GPU NVIDIA L4 à Cloud Run, en avant-première. Cela ouvre de nombreux nouveaux cas d'utilisation pour les développeurs Cloud Run, notamment :
* Effectuer des inférences en temps réel avec des modèles ouverts légers tels que les modèles Gemma (2B/7B) ouverts de Google ou Llama 3 (8B) de Meta pour créer des chatbots personnalisés ou des résumés de documents à la volée, tout en s'adaptant pour gérer les pics de trafic utilisateur.
* Servir des modèles d'IA générative personnalisés et affinés, tels que la génération d'images adaptée à la marque de votre entreprise, et réduire la voilure pour optimiser les coûts lorsque personne ne les utilise.
* Accélérer vos services Cloud Run gourmands en calcul, tels que la reconnaissance d'images à la demande, le transcodage et la diffusion vidéo en continu, et le rendu 3D.
En tant que plateforme entièrement gérée, Cloud Run vous permet d'exécuter votre code directement sur l'infrastructure évolutive de Google, combinant la flexibilité des conteneurs avec la simplicité du sans serveur pour vous aider à augmenter votre productivité. Avec Cloud Run, vous pouvez exécuter des services frontaux et dorsaux, des travaux par lots, déployer des sites Web et des applications, et gérer les charges de travail de traitement des files d'attente, le tout sans avoir à gérer l'infrastructure sous-jacente.
Dans le même temps, de nombreuses charges de travail qui effectuent des inférences d'IA, en particulier les applications qui exigent un traitement en temps réel, nécessitent une accélération GPU pour offrir des expériences utilisateur réactives. Grâce à la prise en charge des GPU NVIDIA, vous pouvez effectuer des inférences d'IA en ligne à la demande à l'aide des LLM de votre choix en quelques secondes.
Les premiers clients sont enthousiasmés par la combinaison de Cloud Run et des GPU NVIDIA.
"La prise en charge des GPU de Cloud Run a changé la donne pour nos applications d'inférence en temps réel. La faible latence de démarrage à froid est impressionnante, ce qui permet à nos modèles de fournir des prédictions presque instantanément, ce qui est essentiel pour les expériences client sensibles au facteur temps. De plus, les GPU Cloud Run maintiennent une latence de service minimale et constante sous différentes charges, garantissant ainsi que nos applications d'IA générative sont toujours réactives et fiables, tout en s'adaptant sans effort à zéro pendant les périodes d'inactivité. Globalement, les GPU Cloud Run ont considérablement amélioré notre capacité à fournir des résultats rapides, précis et efficaces à nos utilisateurs finaux." - Thomas MENARD, responsable de l'IA - Global Beauty Tech, L'Oréal
Globalement, l'ajout de la prise en charge des GPU NVIDIA à Cloud Run est un développement important pour les développeurs qui cherchent à créer des applications d'inférence d'IA en temps réel. Cette fonctionnalité permettra aux développeurs de tirer parti de la puissance des GPU NVIDIA, tout en profitant de la facilité d'utilisation et de l'évolutivité de Cloud Run.
Pour commencer à utiliser Cloud Run avec les GPU NVIDIA, vous pouvez vous inscrire au programme d'avant-première à l'adresse g.co/cloudrun/gpu.