intel nnp l chip

Le plus gros die d’Intel est un accélérateur de réseau de neurones… manufacturé chez TSMC ?

Dans la famille des accélérateurs de réseau de neurones, chez Intel, on conaissait le Movidius, des puces basse consommation prévues pour l’embarqué ou l’IoT, mais cela s’arrêtait là. Pour la haute performance, il fallait se tourner vers des Xeons, et plus précisément la coûteuse Scalable Platform. Certes, la présence d’AVX-512, et désormais d’instructions dédiées à la multiplication de matrices permet de distancer le concurrent AMD dans ces tâches, mais ça n’est tout de même pas la panacée.

 

Voilà que le Spring Crest NNP-L vient combler ce vide. Issue du rachat de Nervana Systems en 2016, la première itération du bouzin était en 22nm, s’appelait Lake Crest et… n’était pas disponible à la vente. Le but de la puce était simplement de prouver que les idées architecturales étaient pertinentes et de permettre aux développeurs de la partie back-end d’avoir un support physique sur lequel s’interfacer.

 

intel nnp l chip

 

Le bouzin a désormais évolué et sera prochainement disponible à l’achat en plusieurs versions, dont nous ne connaissons que la plus chère : les NNP L-1000. Il faut dire que les technologies mises à l’oeuvre sur la socket sont impressionnantes… et quelque peu déroutantes venant d’une filiale d’Intel. En effet, nous retrouvons 4 piles d’HBM2 pour 32 Go de mémoire, pas de cache dû à la structure quasi uniquement consituée de multiplieurs et d’additionneurs en cascade, mais surtout une gravure en 16nm TSMC. Il faut dire que le die de près de 750 mm² est selon toute vraisemblance le plus gros de la firme à l’heure actuelle, et qu’au vu de la pénurie cela aurait été suicidaire pour les lignes de productions.

 

Niveau organisation interne, chaque puce d’HBM est reliée à un groupement de six Compute Clusters (rien à voir avec les CCX d’AMD) maximisant la réutilisation de données entre ces unités de calcul. Comparé au DGX-1 de chez NVIDIA, la référence en matière d’IA, ce Spring Crest utilise 61% de sa puissance brute contre 33% chez les verts, mesuré sur un benchmark basé sur de la multiplication de matrice de taille 1k x 700 x 512. Sur un jeu de donnée de taille 2k x 128 x 2k, ce chiffre passe à respectivement 49% contre 27%. Cela semble prometteur, encore faut-il que la fréquence soit suffisamment élevée pour concurrencer les verts, car le premier prototype tourne à 900 MHz ! On notera aussi le support du BFLOAT16 (que vous retrouvez aussi dans les derniers FPGA de la firme.

 

Pour ce qui est de la consommation, les choses ne sont pas encore claires, mais plusieurs modèles se profileraient avec des TDP allant de 200 à 425W. Pas de question de prix pour le moment, mais la version consommateur devrait arriver plus tard dans l’année. Notez aussi qu’une version dédiée à l’inférence – donc moins puissante – et organisée autour d’un cœur Ice Lake gravé cette fois en 10 nm devrait également suivre. (Source : WikiChip)