Google Cloud a annoncé des mises à jour majeures de sa couche logicielle AI Hypercomputer, axées sur l'amélioration des performances d'entraînement et d'inférence, le renforcement de la résilience à grande échelle et la fourniture d'un hub centralisé pour les ressources AI Hypercomputer.

L'une des principales mises à jour est la prise en charge de MaxText sur les machines virtuelles A3 Mega, permettant un entraînement plus rapide et plus efficace des modèles de langage volumineux (LLM). Ces machines virtuelles, optimisées par les GPU NVIDIA H100 Tensor Core, offrent une amélioration de 2X de la bande passante réseau GPU à GPU par rapport aux machines virtuelles A3.

De plus, Google Cloud a introduit SparseCore sur Cloud TPU v5p, fournissant une accélération matérielle pour les opérations d'intégration, ce qui conduit à des performances accrues pour les systèmes de recommandation.

Pour améliorer l'inférence LLM, Google Cloud a également introduit la quantification du cache KV et les noyaux d'attention irréguliers dans JetStream, améliorant les performances d'inférence jusqu'à 2X sur Cloud TPU v5e.

Grâce à ces mises à jour, Google Cloud continue de permettre aux organisations d'accélérer leurs projets d'IA en fournissant une infrastructure performante et rentable. L'accent mis sur le matériel et les logiciels optimisés, ainsi que sur des ressources complètes, fait d'AI Hypercomputer une solution attrayante pour les entreprises qui cherchent à exploiter la puissance de l'IA.