Restez connectés aux idées qui comptent
Recevez nos émissions en avant-première, accédez aux coulisses des débats, et rejoignez les professionnels qui façonnent l’écosystème Cyber, Tech et Défense.
S’inscrire à la newsletter
Flèche violet foncé pointant vers le haut sur un fond blanc.

Depuis janvier 2025, Nvidia déroule une stratégie aussi simple qu'implacable : faire tourner ses puces IA sur chaque bureau, dans chaque entreprise, sans passer par le cloud. Derrière le DGX Spark et son superchip GB10, l'enjeu n'est pas matériel, il est logiciel. CUDA, le langage que l'ensemble des développeurs IA utilisent dans le monde, ne tourne que sur du matériel Nvidia. Une dépendance bâtie sur quinze ans, que la firme de Jensen Huang est en train de transformer en infrastructure permanente. 

Lors du Consumer Electronics Show (CES), de janvier 2025, le patron de Nvidia a annoncé qu'il allait “mettre un supercalculateur IA Grace Blackwell sur chaque bureau, à portée de main de chaque développeur IA”. La machine, d'abord baptisée Project DIGITS, est devenue le DGX Spark. Disponible depuis octobre 2025, étendue aux PC Windows sous le nom RTX Spark au Computex de juin 2026, elle incarne quelque chose qui dépasse largement la fiche technique, Nvidia change d'échelle. Il quitte les data centers pour entrer dans les bureaux, les laboratoires, les entreprises, partout où quelqu'un veut faire tourner un modèle d'intelligence artificielle sans passer par Amazon, Google ou Microsoft. 

L'analogie avec Windows n'est pas gratuite. Microsoft a bâti sa domination non pas sur la qualité intrinsèque de son système, mais sur un principe simple : l'ensemble des développeurs écrivait pour Windows et l'ensemble des utilisateurs utilisait ce que les développeurs avaient écrit. Nvidia fait la même chose avec CUDA depuis 2007. Et aujourd'hui, il descend ce monopole du cloud vers la machine individuelle. 

À lire aussi : Mastercard, Recorded Future et la cybercriminalité financière : comprendre la menace pour mieux se défendre

La puce qui est au cœur du dispositif s'appelle GB10. Jérémie Michel, rédacteur en chef de RISKINTEL MEDIA, en détaille la mécanique. “Le cœur du Spark, c'est la puce GB10 que Nvidia appelle un superchip. Elle contient un processeur ARM de 20 coeurs co-développé avec MediaTek, 10 cœurs haute performance, 10 cœurs basse consommation et un GPU Blackwell intégré, avec 6144 cœurs CUDA. C'est la même puissance qu'une carte graphique RTX 5070 de bureau”, explique-t-il. 

Ce qui rend cette intégration stratégiquement décisive, c'est la mémoire. “On trouve 128 gigaoctets de mémoire LPDDR5X unifiée et partagée entre le CPU et le GPU grâce à NVLink”, poursuit Jérémie. “Sur un PC classique, le processeur a sa mémoire d'un côté, la carte graphique a la sienne de l'autre et les deux communiquent par un bus qui fait goulot d'étranglement. Là, tout est dans un seul pool, exactement comme chez Apple avec les puces M.” Le résultat : un pétaflop de performance, soit un million de milliards d'opérations par seconde, dans un format compact et basse consommation. La comparaison avec Apple n'est pas anodine. Les puces M d'Apple ont imposé l'architecture unifiée dans le monde grand public, prouvant qu'un seul pool de mémoire partagé entre CPU et GPU n'était pas un compromis mais une supériorité. Nvidia reprend exactement ce principe et y ajoute une couche que Cupertino ne peut pas offrir.  

Le fossé qui s'appelle CUDA

“En quoi c'est différent d'un Mac avec une puce M4 ? La réponse tient en un mot : CUDA” , tranche Jérémie Michel. CUDA est le langage de programmation que la quasi-totalité des développeurs en intelligence artificielle utilisent dans le monde. Il est né chez Nvidia en 2007, développé dans l'ombre pendant des années avant de devenir, quand le deep learning a explosé au tournant des années 2010, la référence dominante dans l’industrie. Nvidia a passé quinze ans à en bétonner les fondations : bibliothèques optimisées pour l'apprentissage profond, intégrations avec tous les grands frameworks d'IA, compilateurs, outils de débogage, milliers de SDK. Les universités ont commencé à enseigner CUDA, les articles de recherche benchmarkaient en CUDA, les startups recrutaient des ingénieurs CUDA, et désormais, réécrire des systèmes CUDA pour les faire tourner sur une autre architecture est possible. 

À lire aussi : Données personnelles et IA : comment vos gestes quotidiens ont entraîné l'intelligence artificielle à votre insu

“Un Mac avec une puce M4 est une machine généraliste excellente”, rappelle Jérémie. Mais CUDA ne tourne pas dessus. Quand vous faites de l'IA, vraiment de l'IA, sur des modèles de 200 milliards de paramètres, vous faites du CUDA. Et CUDA ne tourne que sur du matériel Nvidia. Le Spark, lui, fait tourner ces modèles en local sur votre bureau, sans connexion internet, sans abonnement cloud. C'est une proposition que ni Apple, ni AMD, ni Intel ne peuvent formuler dans les mêmes termes.

La plateforme, pas le produit 

L'erreur serait de lire le DGX Spark comme un objet isolé. C'est en réalité une pièce dans une stratégie construite depuis les data centers et redéployée méthodiquement vers le bureau. “Une seule puce, le GB10, pour plusieurs segments”, résume Jérémie Michel. DGX Spark pour les développeurs et les chercheurs, RTX Spark pour les joueurs et le grand public et DGX Station, la version tour, pour les entreprises qui veulent de la puissance brute. Tous basés sur la même architecture, les mêmes outils et le même écosystème. 

L'objectif explicitement énoncé par Nvidia n'est pas de vendre des PC, c'est de briser la dépendance au cloud. Aujourd'hui, faire tourner un modèle d'IA sérieux suppose de payer un abonnement à un hyperscaler (Amazon Web Services, Google Cloud ou Microsoft Azure) pour accéder à des serveurs distants. C'est cher et pour certaines applications, c'est lent. De plus, les données transitent par des infrastructures que l'utilisateur ne contrôle pas. Le Spark propose une alternative radicale : la même puissance sur son bureau, ses données qui restent chez soi, sans abonnement ni latence réseau. Le timing n'est pas anodin. Les prix de l'inférence cloud ont certes chuté, mais la demande a explosé dans les mêmes proportions. Les grandes entreprises commencent à s'interroger sérieusement sur leur dépendance aux hyperscalers, en termes de coût, de souveraineté des données et de latence pour les applications temps réel. 

À lire aussi : Claude Mythos, MCP et agents IA : quand la surface d'attaque devient incontrôlable

Au Computex 2026, Jensen Huang a confirmé qu’il ne s'agit pas d'un coup d'essai. La roadmap publiquement annoncée prévoit trois générations successives. Après Grace Blackwell, viendra Vera Rubin, avec de la mémoire LPDDR6, déjà prévu pour 2027-2028. Puis Rosa Feynman, prévu pour 2029-2030, avec des GPU empilés en 3D et de la mémoire HBM de nouvelle génération. “Nvidia ne fait pas un coup d'essai. Nvidia installe une plateforme”, dit Jérémie. Publiquement s'engager sur trois générations devant ses partenaires OEM et ses développeurs, c'est le signal classique d'un acteur qui veut que tout l'écosystème mise sur lui. C'est ce que Microsoft a fait avec Windows dans les années 1990, ce que Google a fait avec Android et ce qu’Apple a fait avec l'iPhone. La prochaine couche de l'infrastructure numérique mondiale est en train de se jouer et elle a des cœurs CUDA. 

Lysandre Martin
Journaliste RISKINTEL MEDIA