Les processeurs Intel Sapphire Rapid-SP Xeon comprendront jusqu’à 64 Go de mémoire HBM2e, ainsi que les GPU Xeon et datacenter de nouvelle génération pour 2023+

0
22

Au SC21 (Supercomputing 2021), Intel a organisé une brève session où ils discuté leur feuille de route de centre de données de nouvelle génération et a parlé de leurs prochains GPU Ponte Vecchio et des processeurs Sapphire Rapids-SP Xeon.

Intel parle des processeurs Sapphire Rapids-SP Xeon et des GPU Ponte Vecchio au SC21 – révèle également la gamme de centres de données de nouvelle génération pour 2023+

Intel avait déjà discuté de la plupart des détails techniques concernant sa gamme de processeurs et de GPU de centre de données de nouvelle génération à Hot Chips 33. Ils réaffirment ce qu’ils ont dit et révèlent également quelques informations supplémentaires à SuperComputing 21.

Intel célèbre le 50e anniversaire de 4004 : le premier microprocesseur commercial au monde – Une rétrospective

La génération actuelle de processeurs Intel Xeon Scalable a été largement adoptée par nos partenaires de l’écosystème HPC, et nous ajoutons de nouvelles fonctionnalités avec Sapphire Rapids, notre processeur Xeon Scalable de nouvelle génération actuellement en cours d’échantillonnage avec les clients. Cette plate-forme de nouvelle génération offre des capacités multiples pour l’écosystème HPC, apportant pour la première fois une mémoire haute bande passante intégrée avec HBM2e qui exploite l’architecture multi-tuiles Sapphire Rapids. Sapphire Rapids apporte également des performances améliorées, de nouveaux accélérateurs, PCIe Gen 5 et d’autres fonctionnalités intéressantes optimisées pour l’IA, l’analyse de données et les charges de travail HPC.

Les charges de travail HPC évoluent rapidement. Ils se diversifient et se spécialisent, nécessitant un mélange d’architectures hétérogènes. Alors que l’architecture x86 continue d’être le cheval de bataille pour les charges de travail scalaires, si nous voulons offrir des gains de performances de plusieurs ordres de grandeur et aller au-delà de l’ère exascale, nous devons examiner de manière critique comment les charges de travail HPC sont exécutées dans des architectures vectorielles, matricielles et spatiales, et nous devons nous assurer que ces architectures fonctionnent ensemble de manière transparente. Intel a adopté une stratégie de « charge de travail complète », où les accélérateurs et les unités de traitement graphique (GPU) spécifiques à la charge de travail peuvent fonctionner de manière transparente avec les unités centrales de traitement (CPU) du point de vue matériel et logiciel.

Nous déployons cette stratégie avec nos processeurs Intel Xeon Scalable de nouvelle génération et nos GPU Intel Xe HPC (nom de code « Ponte Vecchio ») qui alimenteront le supercalculateur Aurora 2 exaflops du Laboratoire national d’Argonne. Ponte Vecchio a la densité de calcul la plus élevée par socket et par nœud, avec 47 tuiles avec nos technologies d’emballage avancées : EMIB et Foveros. Il existe plus de 100 applications HPC en cours d’exécution sur le Ponte Vecchio. Nous travaillons également avec des partenaires et des clients, notamment ATOS, Dell, HPE, Lenovo, Inspur, Quanta et Supermicro, pour déployer Ponte Vecchio dans leurs derniers supercalculateurs.

via Intel

Processeurs Intel Sapphire Rapids-SP Xeon Data Center

Selon Intel, le Sapphire Rapids-SP sera disponible en deux variantes de package, une configuration standard et une configuration HBM. La variante standard comportera une conception de puces composée de quatre matrices XCC d’une taille de matrice d’environ 400 mm2. Il s’agit de la taille d’un dé XCC singulier et il y en aura quatre au total sur la puce supérieure Sapphire Rapids-SP Xeon. Chaque puce sera interconnectée via EMIB qui a une taille de pas de 55u et un pas de noyau de 100u.

La puce standard Sapphire Rapids-SP Xeon comportera 10 interconnexions EMIB et l’ensemble du boîtier mesurera un puissant 4446 mm2. En passant à la variante HBM, nous obtenons un nombre accru d’interconnexions qui se situent à 14 et sont nécessaires pour interconnecter la mémoire HBM2E aux cœurs.

Les tests de performances du processeur Intel Core i7-12800H Alder Lake-P présentent également une fuite, jusqu’à 25 % plus rapide que le processeur AMD Ryzen 7 5800H lors d’un test monothread

Les quatre packages de mémoire HBM2E comprendront des piles 8-Hi, Intel opte donc pour au moins 16 Go de mémoire HBM2E par pile pour un total de 64 Go dans le package Sapphire Rapids-SP. En parlant de l’emballage, la variante HBM mesurera 5700 mm2 ou 28% plus grande que la variante standard. Par rapport aux numéros EPYC Genoa récemment divulgués, le package HBM2E pour Sapphire Rapids-SP serait 5 % plus grand tandis que le package standard serait 22 % plus petit.

  • Intel Sapphire Rapids-SP Xeon (Pack standard) – 4446mm2
  • Intel Sapphire Rapids-SP Xeon (Pack HBM2E) – 5700mm2
  • AMD EPYC Gênes (Pack 12 CCD) – 5428mm2

Intel déclare également que le lien EMIB offre une amélioration de la densité de bande passante deux fois supérieure et une efficacité énergétique 4 fois supérieure par rapport aux conceptions de boîtiers standard. Fait intéressant, Intel appelle la dernière gamme Xeon Logiquement monolithique, ce qui signifie qu’ils font référence à l’interconnexion qui offrira les mêmes fonctionnalités qu’une puce unique, mais techniquement, il y a quatre puces qui seront interconnectées. Vous pouvez lire tous les détails concernant les processeurs standard Sapphire Rapids-SP Xeon à 56 cœurs et 112 threads ici.

Familles Intel Xeon SP :

Image de marque familialeSkylake-SPLac Cascade-SP/APLac Cooper-SPLac de glace-SPRapides de saphirRapides ÉmeraudeRapides de granitRapides du Diamant
Nœud de processus14 nm+14 nm++14 nm++10 nm+Intel 7Intel 7Intel 4Intel 3 ?
Nom de la plate-formeIntel PurleyIntel PurleyIntel Cedar IslandIntel WhitleyIntel Eagle StreamIntel Eagle StreamIntel Mountain Stream
Intel Birch Stream
Intel Mountain Stream
Flux de bouleau d’Intel
SKU MCP (Multi-Chip Package)NonOuiNonNonOuiÀ déterminerÀ déterminer (peut-être oui)À déterminer (peut-être oui)
PriseLGA 3647LGA 3647LGA 4189LGA 4189LGA 4677LGA 4677LGA 4677À déterminer
Nombre maximal de cœursJusqu’à 28Jusqu’à 28Jusqu’à 28Jusqu’à 40Jusqu’à 56Jusqu’à 64 ?Jusqu’à 120 ?À déterminer
Nombre maximal de threadsJusqu’à 56Jusqu’à 56Jusqu’à 56Jusqu’à 80Jusqu’à 112Jusqu’à 128 ?Jusqu’à 240 ?À déterminer
Cache L3 maximum38,5 Mo L338,5 Mo L338,5 Mo L360 Mo L3105 Mo L3120 Mo L3 ?À déterminerÀ déterminer
Prise en charge de la mémoireDDR4-2666 6 canauxDDR4-2933 6 canauxJusqu’à 6 canaux DDR4-3200Jusqu’à 8 canaux DDR4-3200Jusqu’à 8 canaux DDR5-4800Jusqu’à 8 canaux DDR5-5600 ?À déterminerÀ déterminer
Prise en charge de la génération PCIePCIe 3.0 (48 voies)PCIe 3.0 (48 voies)PCIe 3.0 (48 voies)PCIe 4.0 (64 voies)PCIe 5.0 (80 voies)PCIe 5.0PCIe 6.0 ?PCIe 6.0 ?
Gamme TDP140W-205W165W-205W150W-250W105-270WJusqu’à 350WJusqu’à 350WÀ déterminerÀ déterminer
DIMM 3D Xpoint OptaneN / APass ApacheCol de BarlowCol de BarlowPasse du corbeauPasse du corbeau ?Donahue Pass ?Donahue Pass ?
ConcurrenceAMD EPYC Naples 14 nmAMD EPYC Rome 7 nmAMD EPYC Rome 7nmAMD EPYC Milan 7 nm+AMD EPYC Gênes ~5nmAMD Next-Gen EPYC (après Gênes)AMD Next-Gen EPYC (après Gênes)AMD Next-Gen EPYC (après Gênes)
Lancer201720182020202120222023 ?2024 ?2025 ?

Processeurs graphiques du centre de données Intel Ponte Vecchio

Passant à Ponte Vecchio, Intel a présenté certaines fonctionnalités clés de son GPU phare de centre de données, telles que 128 cœurs Xe, 128 unités RT, la mémoire HBM2e et un total de 8 GPU Xe-HPC qui seront connectés ensemble. La puce comportera jusqu’à 408 Mo de cache L2 dans deux piles distinctes qui se connecteront via l’interconnexion EMIB. La puce comportera plusieurs matrices basées sur le processus « Intel 7 » d’Intel et les nœuds de processus N7 / N5 de TSMC.

Intel a également précédemment détaillé le package et la taille de la matrice de son GPU phare Ponte Vecchio basé sur l’architecture Xe-HPC. La puce sera composée de 2 tuiles avec 16 dés actifs par pile. La taille maximale de la matrice supérieure active sera de 41 mm2 tandis que la taille de la matrice de base, également appelée « tuile de calcul », est de 650 mm2.

Le GPU Ponte Vecchio utilise 8 piles HBM 8-Hi et contient un total de 11 interconnexions EMIB. L’ensemble du boîtier Intel Ponte Vecchio mesurerait 4843,75 mm2. Il est également mentionné que le pas de bosse pour les processeurs Meteor Lake utilisant un emballage Forveros 3D haute densité sera de 36u.

En plus de cela, Intel a également publié une feuille de route dans laquelle ils confirment que la famille Xeon Sapphire Rapids-SP de nouvelle génération et les GPU Ponte Vecchio seront disponibles en 2022, mais il y a aussi la gamme de produits de nouvelle génération qui est prévue pour 2023 et au-delà. . Intel n’a pas explicitement dit ce qu’il prévoyait d’apporter, mais nous savons que le successeur de Sapphire Rapids sera connu sous le nom d’Emerald and Granite Rapids et le successeur de celui-ci sera connu sous le nom de Diamond Rapids.

Du côté des GPU, nous ne savons pas ce que sera le successeur du Ponte Vecchio, mais nous nous attendons à ce qu’il soit en concurrence avec les GPU de nouvelle génération de NVIDIA et d’AMD pour le marché des centres de données.

À l’avenir, Intel propose plusieurs solutions de nouvelle génération pour des conceptions d’emballage avancées telles que Forveros Omni et Forveros Direct alors qu’elles entrent dans l’ère Angstrom du développement des transistors.

Accélérateurs GPU de centre de données de nouvelle génération

Nom du GPUAMD Instinct MI200NVIDIA Hopper GH100Intel Xe HPC
Produit phareAMD Instinct MI250XNVIDIA H100Intel Ponte Vecchio
Conception d’emballageMCM (tissu infini)MCM (NVLINK)MCM (EMIB + Forveros)
Architecture GPUAldébaran (CDNA 2)Trémie GH100Xe-HPC
Nœud de processus GPU6 nm5 nm ?7 nm (Intel 4)
Cœurs GPU14 08018 432 ?32 768 ?
Vitesse d’horloge du GPU1700 MHzÀ déterminerÀ déterminer
Cache L2 / L32 x 8 MoÀ déterminer2 x 204 Mo
FP16 Calculer383 TOPÀ déterminerÀ déterminer
Calcul FP3295.7 TFLOPÀ déterminer~45 TFLOP (Silicium A0)
Calcul FP6447,9 TFLOPÀ déterminerÀ déterminer
Capacité mémoire128 Go HBM2E128 Go HBM2E ?À déterminer
Horloge de mémoire3,2 Gbit/sÀ déterminerÀ déterminer
Bus mémoire8192 bits8192 bits ?8192 bits
Bande passante de la mémoire3,2 To/s~2,5 To/s ?5 To/s
Facteur de formeDouble fente, pleine longueur / OAMDouble fente, pleine longueur / OAMOAM
RefroidissementRefroidissement passif
Refroidissement liquide
Refroidissement passif
Refroidissement liquide
Refroidissement passif
Refroidissement liquide
TDPT4 20212H 20222022-2023 ?