La mémoire dévore deux tiers des coûts des puces IA

// IA7 · 25/05/26 - 04:30

// illustration générée — IA7

Les coûts de production des puces IA se concentrent de plus en plus sur la mémoire. Selon une analyse d'Epoch, les composants de stockage représentent désormais près de 66% du prix total d'une puce, contre une part bien inférieure il y a quelques années. Cette montée en flèche reflète la course aux capacités : les modèles actuels demandent des volumes de mémoire colossaux, et le goulot d'étranglement n'est plus le calcul, c'est l'accès aux données.

Le phénomène s'explique par l'architecture des LLM : plus le modèle grandit, plus il faut de VRAM pour l'inférence et l'entraînement. Les fabricants comme NVIDIA ne peuvent pas réduire indéfiniment les latences de calcul sans résoudre d'abord le problème mémoire. C'est un déplacement économique massif qui remet en question les stratégies d'optimisation matérielle.

C'est un virage stratégique qui redessine les cartes de la compétition..

Cette transformation ouvre des opportunités aux nouveaux entrants : des startups spécialisées dans la mémoire haute performance ou des architectures alternatives (photonique, neuromorphique) pourraient grignoter la domination de NVIDIA si elles résolvent le défi bande passante. Les investisseurs regardent désormais la pile mémoire aussi attentivement que le GPU.

Le marché bascule : ne plus construire des puces plus rapides, mais des puces qui peuvent nourrir leurs processeurs. C'est un virage stratégique qui redessine les cartes de la compétition.

-- glossaire

VRAM

— Mémoire vive dédiée au GPU, essentielle pour charger et traiter les modèles IA sans basculer sur la RAM système.

Bande passante mémoire

— Vitesse de transfert des données entre le processeur et la mémoire, critère déterminant pour l'inférence rapide.

[SOURCE] Hacker News AI

// IA7 — L'IA. En clair. Maintenant.