Google Cloud a publié un guide pratique sur la façon de maximiser le débit de service des LLM pour les GPU sur GKE.

Le billet de blog aborde le défi de la diffusion de modèles linguistiques de grande taille (LLM) de manière rentable. GKE, avec des fonctionnalités telles que la mise à l'échelle automatique de la charge de travail et de l'infrastructure et l'équilibrage de charge, offre une solution pour la diffusion de LLM rentable.

Le billet de blog fournit des recommandations pratiques pour maximiser le débit de service sur les GPU NVIDIA sur GKE, notamment :

* **Déterminer s'il faut quantifier le modèle et quelle quantification utiliser.** La quantification FP16 et Bfloat16 offre pratiquement la même précision que la FP32 avec une utilisation de la mémoire deux fois moindre.

* **Choisir un type de machine adapté au modèle.** Le choix du bon type de machine dépend du nombre de paramètres dans le modèle et du type de données des poids du modèle.

* **Choisir le bon GPU.** GKE propose une variété de VM équipées de GPU NVIDIA. Le choix du bon GPU dépend des caractéristiques du modèle et des exigences de performance.

En outre, le billet de blog explique comment optimiser une plateforme de serveur de modèle pour une charge de travail d'inférence donnée, notamment :

* **Optimisation pour les cas d'utilisation gourmands en entrée par rapport aux cas d'utilisation gourmands en sortie.** L'inférence LLM implique deux phases : le préremplissage et le décodage.

* **Comment le traitement par lots affecte les performances.** Les requêtes par lots sont essentielles pour obtenir un débit plus élevé car elles utilisent davantage de mémoire GPU, de bande passante HBM et de FLOPS GPU sans augmenter les coûts.

Dans l'ensemble, le billet de blog fournit des conseils pratiques pour maximiser le débit de service des LLM sur les GPU sur GKE. En suivant ces recommandations, les entreprises peuvent minimiser le coût de la diffusion des LLM tout en continuant à fournir des performances élevées.