- ClusterMAX 2.0 est une norme qui évalue les clouds d'IA sur cinq axes critiques : sécurité, stockage, orchestration, fiabilité et disponibilité réelle des GPU.
- CoreWeave est le seul fournisseur à bénéficier de la certification Platinum ClusterMAX™, grâce à son expertise en matière de sécurité spécifique aux GPU/InfiniBand, de stockage haute performance et d'orchestration Slurm sur Kubernetes.
- Des indicateurs tels que le MFU et le goodput déterminent le coût effectif de l'entraînement des modèles d'IA, et des structures bien conçues peuvent améliorer considérablement l'efficacité par rapport aux clouds à usage général.
- L'association de clusters GPU avancés, de GPU NVIDIA modernes et d'outils comme Slurm et Kubernetes constitue la base des infrastructures d'IA de nouvelle génération.

La course pour créer le meilleur infrastructure cloud pour l'intelligence artificielle Il ne s'agit plus seulement d'accumuler des TFLOPS ou de présenter le dernier modèle de GPU. Désormais, l'accent est mis sur la capacité à fournir des performances optimales. clusters GPU massifs Avec une efficacité élevée, isolez efficacement les clients, orchestrez des milliers de nœuds de manière transparente et maintenez la stabilité lors des pics de demande. Dans ce scénario, la norme ClusterMAX 2.0 Elle est devenue une référence pour distinguer les promesses en l'air des promesses concrètes.
Dans ce cadre d'évaluation, CoreWeave Elle a été placée en vitrine en obtenant cette distinction Platinum ClusterMAX™, le niveau le plus élevé du système de notation défini par Semi-analyseCe label atteste non seulement de la présence de GPU de pointe, mais aussi que leur plateforme est conçue dès le départ pour… entraîner et déployer des modèles d'IA à grande échelle avec une bonne facilité d'utilisation, une sécurité adaptée aux environnements GPU/InfiniBand et un fonctionnement robuste où les pannes sont gérées sans problème.
Qu’est-ce que la norme ClusterMAX 2.0 et pourquoi est-elle devenue si importante ?
ClusterMAX™ est un Cadre d'évaluation du cloud orienté IA et HPC qui évalue si un fournisseur peut gérer de manière fiable des charges de travail massives d'entraînement et d'inférence. Il ne se contente pas de compter le nombre de GPU dans les racks, mais analyse si le fournisseur maîtrise les éléments clés de la solution : sécurité, stockage, orchestration, fiabilité et disponibilité des ressources à grande échelle.
libération ClusterMAX 2.0 affine cette méthodologie en intégrant à la fois tests indépendants comme expérience client réelle qui fonctionnent avec d'immenses clusters. L'objectif est de vérifier si, en pratique, l'infrastructure maintient des niveaux élevés de Utilisation du GPUIl gère les pannes matérielles et réseau sans nécessiter de formation inutile et offre des garanties d'isolation entre les locataires, un élément essentiel dans les environnements multi-entreprises.
Le niveau Platinum Elle n'est accordée qu'aux fournisseurs qui se démarquer de façon constante dans toutes les dimensions évaluées : des politiques de sécurité très précises à la qualité des services gérés grogner y KubernetesCela inclut la maturité du stockage et la prise en charge des clusters avec les GPU les plus récents. Il est inutile d'avoir des cartes Blackwell au catalogue si elles sont en rupture de stock, si la capacité de stockage est saturée ou si le planificateur dysfonctionne.
En réalité, ce classement met en lumière un point souvent négligé : dans un environnement d’IA à grande échelle, l’indicateur clé n’est pas seulement le coût par heure de GPU, mais le capacité à démarrer rapidement l'entraînementles maintenir pendant des semaines et atteindre un niveau élevé Utilisation du modèle FLOP (MFU)Autrement dit, les FLOP théoriques du GPU se traduisent par un travail utile, sans que le cluster ne soit à moitié inactif en attente de données ou de synchronisations.
Dimensions mesurées par ClusterMAX™ : sécurité, stockage, orchestration, fiabilité et disponibilité
L'un des points forts de la norme ClusterMAX 2.0 est qu'elle prend en compte les L'infrastructure d'IA en tant que système completIl ne s'agit pas d'un ensemble d'éléments disparates. C'est pourquoi l'évaluation est structurée autour de cinq grands domaines qui, ensemble, déterminent si un prestataire est véritablement adapté à la formation à grande échelle.
Sur l'axe de sécuritéDes aspects tels que l'isolation du réseau sont examinés (par exemple, VPC dédiés), tests d'intrusion spécifiques par couches GPU/InfiniBand et la capacité de détecter les menaces en temps réelLa raison est simple : lorsque vous passez d’environnements monolithiques à clusters partagés et multi-locataires Grâce à des réseaux à très faible latence, le modèle de menace change du tout au tout.
En stockageL'enjeu est de savoir si le sous-système de données peut suivre le rythme des GPU de dernière génération. Des technologies telles que CAIOS y LOTA Ils sont appréciés pour leur Performance et évolutivitéEn effet, dans le cadre d'un entraînement distribué à grande échelle, le goulot d'étranglement se situe généralement au niveau des E/S : si le système de fichiers ne fournit pas les données à temps, l'unité de formation multiple (MFU) s'effondre et le coût effectif par époque explose.
La partie de orchestration analyse la maturité des solutions en fonction de Slurm et KubernetesClusterMAX ne se contente pas de vérifier la présence de Kubernetes générique ; il recherche des intégrations spécifiques telles que : SUNK (Slurm sur Kubernetes) et des services tels que Service Kubernetes CoreWeave (CKS), qui combinent le meilleur des mondes HPC et cloud-native pour gérer emplois distribués avec affinité GPU/InfiniBand, planification par groupes, files d'attente avancées et services auxiliaires.
En ce qui concerne fiabilité et disponibilitéLes valeurs standard caractéristiques telles que bilans de santé actifs et passifs, la réparation automatique des nœudsla facilité de reprise de l'entraînement après des revers et, surtout, la possibilité d'offrir clusters de nouvelle génération basés sur GPU (Tel que GB200 o GB300 de NVIDIA (avec processeur Grace et carte graphique Blackwell) de manière concrète et pas seulement dans un communiqué de presse.
CoreWeave et le niveau Platine : en quoi diffère-t-il des autres ?
Selon l'évaluation ClusterMAX 2.0 de SemiAnalysis, CoreWeave À ce jour, il est le seul fournisseur qui réponde aux exigences du niveau PlatineCela ne signifie pas que les autres services cloud sont mauvais, mais plutôt que CoreWeave a réussi à rassembler une série d'éléments sur une plateforme unique qui, ensemble, font toute la différence lorsqu'on parle de IA massive.
Dans la section sécuritéLe rapport met l'accent sur l'environnement. GPU/InfiniBand: il y a tests d'intrusion orientés vers ces couchespolitiques fines de Segmentation VPC et des systèmes de détection des menaces en temps réel Adapté au trafic à haute performance. Il ne s'agit pas seulement de satisfaire à une liste de contrôle de conformité, mais aussi de renforcer les points faibles qui apparaissent lorsque des réseaux à faible latence sont partagés entre plusieurs locataires.
En stockage, les systèmes CAIOS y LOTA Ils sont spécifiquement mentionnés pour leur capacité à maintenir vitesses de lecture/écriture élevées avec de nombreux nœuds en parallèle sans dégradation des performances. Ceci est essentiel pour maintenir un Utilisation du modèle FLOP (MFU) élevée et empêcher les GPU d'attendre que le système de fichiers « se réveille ».
La orchestration C'est un autre domaine où CoreWeave excelle, grâce à sa combinaison de SUNK (Slurm sur Kubernetes) et le service CKSCette couche permet aux équipes déjà habituées à Slurm de continuer à utiliser leurs outils et scripts, mais bénéficie également de tous les aspects natifs du cloud de Kubernetes : déploiement de services auxiliaires, observabilité, sécurité, mise à l’échelle automatique des composants de formation non critiques, etc.
En fiabilitéLa plateforme met en œuvre bilans de santé avancés et les automatisations pour remplacement des nœuds défectueux et la récupération après une panne. Lors de l'entraînement d'un modèle pendant des semaines avec des centaines de GPU, l'auto-réparation est aussi importante que la disponibilité du centre de données, car le moindre bug, la moindre panne de carte ou de liaison peut interrompre l'ensemble du processus en l'absence de mécanismes de résilience.
Enfin, dans le chapitre sur disponibilitéCoreWeave annonce non seulement la prise en charge des GPU comme GB200 y GB300mais a montré déploiements à grande échelle dans le monde réel avec ces accélérateurs. Cela indique qu'ils ont capacité de calcul de pointe fournie et accessible aux clients, chose que les hyperscalers mettent souvent du temps à proposer sans longues files d'attente ni restrictions importantes.
MFU et goodput : les indicateurs qui régissent le projet de loi sur l’IA
Lorsque l'on parle d'efficacité des infrastructures d'IA, deux concepts reviennent constamment : MFU (Modèle d'utilisation FLOP) y bonCes indicateurs sont moins « commerciaux » que les TFLOPS, mais beaucoup plus proches de la manière dont le coût total de l'entraînement d'un grand modèle est réellement calculé.
La UMF mesurer la pourcentage des FLOP théoriques d'un GPU qui sont utilisés dans des opérations de modélisation utilesCela exclut les interruptions de service dues aux E/S, à la synchronisation inter-nœuds ou aux goulots d'étranglement du pipeline. Un cluster mal conçu peut être équipé de GPU haut de gamme et afficher des performances multi-unités (MFU) médiocres, faute d'une infrastructure de stockage ou d'interconnexion adaptée.
El bon, pour sa part, est une mesure de travail utile par rapport aux ressources consomméesL'efficacité est globale : du chargement des données à la gestion des tentatives, des points de contrôle et des échecs. Un taux de débit utile de 96 % indique que la quasi-totalité du temps GPU/heure dépensé se traduit par une progression réelle de l'entraînement, sans pertes excessives dues aux plantages ou aux temps d'attente.
CoreWeave affirme que son infrastructure lui permet d'atteindre cet objectif. Jusqu'à 20 % de MFU en plus et environ un 96% de débit utile dans certains cas de figure. Cela peut se traduire par des semaines d'entraînement sauvées Ou, si l'on se place du point de vue du directeur financier, dans des millions de dollars de moins sur la facture informatique. Or, ces chiffres sont conseilsparce qu'ils dépendent de modèle, taille, topologie du cluster, framework utilisé et hygiène du pipeline.
Pour toute équipe d'IA sérieuse, la recommandation logique est de réaliser POC avec ses propres charges de travailAvant de prendre des décisions à long terme, il est essentiel de définir clairement les indicateurs clés de performance (KPI) relatifs à la capacité de traitement (MFU) et au débit utile. La norme ClusterMAX™ peut servir de point de départ, mais rien ne remplace la mise à l'épreuve en production.
Slurm sur Kubernetes (SUNK) : un pont entre le HPC classique et le cloud natif
Dans de nombreux laboratoires et entreprises ayant une tradition dans HPCL'outil standard pour la gestion des files d'attente et des ressources est grognerParallèlement, le monde du cloud s'est organisé autour de Kubernetes en tant que couche d'orchestration pour les conteneurs et les services. L'approche de CoreWeave avec SUNK (Slurm sur Kubernetes) Elle tente de combiner les deux mondes sans obliger les équipes à tout changer.
D'une part, grogner Il continue d'être utilisé pour ce qu'il fait de mieux : planifier les tâches distribuées avec des affinités très fines (GPU, InfiniBand, nœuds spécifiques), appliquer planification des gangs (toutes les ressources à la fois ou aucune), et maintenir Politiques de mise en file d'attente de type HPC avec des priorités, des réservations et des limites par utilisateur ou par projet.
Autre, Kubernetes entre en tant que couche pour services auxiliaires et le plan de contrôle : surveillance, journalisation, composants MLOps, API internes, outils de suivi des expériences comme Weights & Biases, pipelines CI/CD, etc. Cette séparation permet au plan d’entraînement de rester exempt de microservices, tout en facilitant son exploitation. mentalité cloud-native.
L'intérêt pratique de SUNK est évident pour les équipes de recherche ou les MLOps qui maîtrisent déjà Slurm et ne souhaitent pas réécrire leurs outils pour migrer vers un nouveau planificateur. La couche gérée de CoreWeave agit comme raccourci opérationnelpermettre le transfert des charges de travail HPC traditionnelles vers le cloud sans réinventer la roue.
Sécurité et conformité dans les clusters GPU : bien plus qu’une simple liste de contrôle
À mesure que les entreprises migrent leurs formations sensibles vers le cloud, Sécurité spécifique à l'environnement GPU/InfiniBand Cela devient un problème crucial. Le rapport relatif à ClusterMAX 2.0 se concentre sur des pratiques telles que… tests d'intrusion spécialisés dans les réseaux à faible latence et pour renforcer l'isolation entre les locataires qui partagent une infrastructure physique.
Dans ces environnements, le Contrôles de segmentation au niveau du VPC, la télémétrie en temps réel Des politiques d'accès strictes sont tout aussi importantes que le chiffrement des données au repos ou l'authentification unique (SSO) dans les panneaux de gestion. Lorsque plusieurs clients partagent des clusters importants avec InfiniBand ou NVLink, toute mauvaise pratique de séparation des accès peut constituer une faille de sécurité pour les équipes habituées aux environnements web ou d'entreprise plus traditionnels.
ClusterMAX™ valorise l'existence d'un Une posture de sécurité cohérente à tous les niveauxDe la conception des centres de données aux systèmes de gestion des clés (KMS), en passant par les audits externes et les tests réguliers. Dans le cas de CoreWeave, il s'agit de la combinaison de contrôles renforcésLes tests d'intrusion axés sur l'infrastructure d'IA et la surveillance continue sont l'un des facteurs qui lui ont permis d'atteindre le niveau Platine.
Comparaison : clouds spécialisés versus hyperscalers généralistes
Le fait que CoreWeave ait obtenu le Platinum ClusterMAX™ n'implique pas que AWSAzure et Google Cloud sont exclus de la compétition. Cela révèle qu'il y a de la place pour… nuages spécialisés en IA qui privilégient l'optimisation de bout en bout (GPU, réseau, stockage, planificateur) plutôt que l'étendue du catalogue et la présence mondiale.
Dans de nombreux cas d'utilisation, un cloud spécialisé peut offrir Amélioration du MFU, du débit utile et des temps de démarrage qu'un hyperscalateur générique, notamment pour la formation à grande échelle et inférence haute performanceLa raison en est que toute l'infrastructure est conçue autour des besoins de l'IA, sans l'inertie liée à la gestion de milliers de services différents.
En revanche, les hyperscalers continuent de se distinguer par leur Échelle mondiale, écosystème de services de données, analytique, sécurité avancée et outils DevOpsDe nombreux accords-cadres commerciaux, l'intégration aux systèmes d'entreprise et une présence dans plusieurs régions font qu'en pratique, le choix du fournisseur n'est pas binaire.
Ce que nous observons dans un nombre croissant d'organisations, c'est une approche multicloud: maintenir les données et certains services sur un hyperscaler, tandis que L'entraînement intensif de l'IA est externalisé vers un cloud spécialisé Lorsque vous avez besoin d'une puissance de calcul de pointe, de meilleures unités de traitement multiprocesseurs ou de files d'attente plus courtes pour obtenir des GPU haut de gamme.
Quels éléments les équipes IA et MLOps doivent-elles évaluer lors du choix de leur infrastructure ?
Pour les équipes techniques qui réfléchissent à l'environnement d'entraînement de leurs modèles, la norme ClusterMAX 2.0 sert de guide pour identifier les environnements d'entraînement les plus adaptés. facteurs qui font vraiment la différence. Au-delà du prix horaire du GPUIl est pertinent de se poser plusieurs questions lorsqu'on compare les fournisseurs.
Le premier est Délai d'attente par rapport aux SLA de livraisonLe prix d'un GPU importe peu si l'entraînement commence avec plusieurs jours de retard ou s'il est fréquemment interrompu. Il est pertinent d'examiner combien de redémarrages, plantages et incidents sont supposées en moyenne dans un projet typique.
Un autre aspect clé est la Topologie du réseau et les technologies d'interconnexion proposées : InfiniBand, NVLink ou Ethernet très haut débit. Il est essentiel de demander des données sur bande passante et latence soutenues pour des tailles de modèle et un nombre de nœuds similaires à ceux que vous souhaitez utiliser.
Sur le plan de stockage haute performanceIl est nécessaire de vérifier si des systèmes tels que CAIOS/LOTA (ou leurs équivalents chez d'autres fournisseurs) se conforment au modèle d'E/S du pipeline : lectures de données distribuées, points de contrôle fréquents, brassages, etc. Une mauvaise conception du sous-système de stockage entraînera la défaillance de l'unité de traitement principale (MFU), même si le réseau et le GPU sont excellents.
Cela compte aussi beaucoup orchestration: si les outils de l'équipe dépendent de grognerIl est judicieux de vérifier le niveau de maturité des solutions de ce type. COULÉLes plugins, le comportement dans les files d'attente saturées, les politiques de préemption, l'isolation entre les tâches, etc. Et, bien sûr, le garanties de sécurité, tels que les détails des tests d'intrusion, les VPC dédiés, l'intégration KMS et les audits tiers.
Enfin, il est intéressant de connaître le Feuille de route future des GPUComme GB200 ou GB300et les accords de disponibilité que le fournisseur est disposé à signer. Pour de nombreux projets, un accès rapide et garanti à ces générations d'accélérateurs sera aussi important que n'importe quelle mesure théorique de FLOPS.
Au-delà du fer : écosystème, capital et services autour des infrastructures
Un élément qui passe souvent inaperçu dans les analyses purement techniques est le écosystème construit autour de l'infrastructureDans le cas de CoreWeave, l'entreprise ne se contente pas de louer des GPU : elle propose également… investir dans les startups via CoreWeave Ventures et intègre des outils tiers qui facilitent le travail quotidien des équipes d'IA.
Au sein de cet écosystème se trouvent des solutions telles que Poids et biais pour le suivi des expériences, OpenPipe pour l'apprentissage par renforcement et l'optimisation de modèles, ou des projets comme Marimovisant à simplifier le développement de modèles Python. De plus, le volet ingénierie appliquée a été renforcé par des initiatives telles que l'acquisition de AI monolithique, axée sur l'IA pour la physique et l'ingénierie.
Pour un laboratoire de recherche ou une entreprise à plus grande échelle, avoir Puissance de calcul élevée, outils intégrés et assistance d'experts Au sein d'un même écosystème, cela peut considérablement accélérer la création de valeur. Dans les grandes entreprises, cependant, les éléments suivants ont tendance à avoir plus d'importance : SLA formel, garanties de sécurité et coût total de possession (TCO) tout au long du cycle de vie complet du modèle.
Clusters de GPU : architecture, composants et rôle de Nvidia
L'ensemble du débat autour de ClusterMAX 2.0 et des clouds d'IA repose sur un concept technique fondamental : cluster GPUIl s'agit essentiellement d'un ensemble de nœuds qui s'intègrent plusieurs cartes graphiques interconnectées par des liaisons à haut débit telles qu'InfiniBand ou NVLink, afin qu'elles puissent fonctionner comme une seule ressource informatique logique.
Les composantes de base de ces groupes comprennent les éléments suivants : GPU (généralement de NVIDIA ou AMD)Des processeurs qui orchestrent des tâches inadaptées aux GPU, des réseaux internes à faible latence, des systèmes de stockage haute performance, une infrastructure de refroidissement robuste et, bien sûr, le pile logicielle appropriée: systèmes d'exploitation (Linux étant le plus courant), pilotes, bibliothèques telles que CUDA ou cuDNN et frameworks ML/DL tels que TensorFlow ou PyTorch.
Dans ce contexte, les architectures NVIDIA jouent un rôle prépondérant. Les GPU tels que… Nvidia A40Basés sur l'architecture Ampere, ils offrent 10 752 cœurs CUDA, 48 Go de mémoire GDDR6, 336 cœurs Tensor et 84 cœurs RT, avec une bande passante mémoire d'environ 696 GB / s y Prise en charge de la mémoire ECCCe type de carte est conçu pour une utilisation intensive. science des données, intelligence artificielle, apprentissage profond, rendu et inférenceet se trouve généralement dans les nœuds de cluster destinés aux environnements professionnels.
Plus le groupe est grand et complexe, plus sa conception devient importante. interconnexions telles qu'InfiniBand ou NVLinkCes technologies réduisent la latence et augmentent les débits de transfert de données entre les GPU et les nœuds. Elles sont essentielles pour éviter que les simulations scientifiques, les modèles d'IA massifs et les charges de travail HPC ne soient ralentis par des problèmes de réseau.
Meilleures pratiques pour la gestion et le logiciel des clusters GPU
Pour tirer le meilleur parti des grands clusters de GPU, un bon matériel ne suffit pas ; il faut les gérer judicieusement. C’est là que les bonnes pratiques d’exploitation et l’utilisation de… logiciel de gestion de cluster plus ou moins spécialisé.
En termes de fonctionnement, il est essentiel de disposer de systèmes pour surveillance de l'utilisation du GPU, de la mémoire et de l'état du système, équilibrer les charges afin qu'il n'y ait pas de cartes saturées et d'autres inactives, automatiser les tâches de maintenance et surveiller l'efficacité de la communication entre les nœuds, notamment lors de l'utilisation d'InfiniBand.
Au niveau logiciel, des solutions telles que grogner Elles demeurent une norme de facto dans les environnements HPC et IA distribués, grâce à leur capacité à planifier les tâches, allouer les ressources et tolérer les pannesEn parallèle, des outils tels que Kubernetes Elles sont devenues très populaires pour la gestion des services et, de plus en plus, pour la gestion charges de travail GPU dans des conteneurs.
De plus, il est essentiel de maintenir Pilotes GPU et configurer correctement le Kit d'outils CUDAIl est conseillé d'utiliser des outils de profilage comme NVIDIA Nsight ou CUDA Profiler pour détecter les goulots d'étranglement et ajuster des paramètres tels que la puissance de calcul ou l'utilisation de la mémoire. Une configuration mal optimisée peut annuler les avantages d'un matériel haut de gamme.
Tout cet écosystème de normes, comme ClusterMAX 2.0des clouds spécialisés comme CoreWeave, des GPU de nouvelle génération et des outils d'orchestration tels que Slurm et Kubernetes Elle redéfinit la manière dont les infrastructures d'IA sont conçues et exploitées. Comprendre comment la sécurité, le stockage, l'orchestration, la fiabilité, la disponibilité et des indicateurs comme le MFU ou le débit utile s'articulent permet aux équipes d'IA et de MLOp de prendre des décisions plus éclairées, d'optimiser leurs budgets de calcul et de tirer le meilleur parti de chaque heure de temps GPU contracté.
