Google Cloud a publié un article de blog expliquant comment déployer le modèle Meta Llama 3.2-1B-Instruct sur Cloud Run à l'aide de GPU. Cet article fournit des instructions étape par étape sur la façon de tirer parti de Cloud Run GPU pour déployer des modèles de langage volumineux (LLM) open source. L'article couvre également les meilleures pratiques pour rationaliser le processus de développement en utilisant des tests de modèles locaux avec l'image Docker Text Generation Inference (TGI), ce qui facilite le dépannage et booste la productivité. Avec Cloud Run GPU, les développeurs bénéficient de la même disponibilité à la demande et de la même évolutivité sans effort qu'ils apprécient avec le processeur et la mémoire de Cloud Run, avec la puissance supplémentaire des GPU NVIDIA. Lorsque votre application est inactive, vos instances équipées de GPU se réduisent automatiquement à zéro, optimisant ainsi vos coûts. L'article fournit également des conseils sur la façon d'améliorer les démarrages à froid à l'aide de Cloud Storage FUSE. Cloud Storage FUSE permet aux développeurs de monter des buckets Google Cloud Storage comme un système de fichiers, réduisant ainsi considérablement les temps de démarrage à froid.
Comment déployer le modèle Llama 3.2-1B-Instruct avec Google Cloud Run GPU
Google Cloud