Un startup coréen vient de lever 135 millions de dollars sur une conviction contrarienne : le vrai goulot de l'IA n'est pas la puissance de calcul, mais la bande passante mémoire. Pendant que tout le monde court après des GPUs plus rapides, XCENA parie que les modèles traînent à cause de latences mémoire — ces millisecondes où les données attendent d'être lues.
C'est une distinction technique subtile mais concrète. Un GPU peut calculer des milliards d'opérations par seconde, mais si la mémoire n'alimente pas assez vite, il tourne au ralenti. XCENA développe des architectures mémoire pensées pour l'inférence IA, là où les gains de débit comptent vraiment.
Cette approche pourrait fragmenter le marché.
La levée de fonds valide une thèse souvent écrasée par le bruit GPU. Les investisseurs commencent à voir que les vrais rendements se feront sur l'efficacité mémoire : moins de latence = plus d'utilisateurs servis par dollar dépensé. C'est où l'économie des modèles géants rencontre la physique du silicium.
Cette approche pourrait fragmenter le marché. Quand Nvidia sort une puce, XCENA sort une solution mémoire optimisée pour celle-ci. Pas spectaculaire, mais rentable pour qui l'intègre en production.

