AWS et HuggingFace publient une stack d'infrastructure dédiée au training et l'inférence des LLM. Les briques logicielles ciblent réduction latence et coûts compute sur instances GPU/Trainium.
L'enjeu : standardiser le chemin critique entre données brutes et modèle en production. Actuellement, chaque équipe ML réinvente la roue — schedulers, optimiseurs mémoire, quantization — sans garantie de convergence.
Compatible SageMaker et instances EC2/ECS.
La solution proposée intègre Hugging Face Transformers, DeepSpeed et les runtime AWS natifs en une couche unique. Compatible SageMaker et instances EC2/ECS. Prêt à récupérer — code ouvert, no lock-in théorique.
Ce qui change : un dev peut lancer un 70B parameter model sur Trainium en <48h sans PhD en systems. Les benchmarks affichent 3-4x throughput vs configurations Kubernetes bricolées. Mais scaling au-delà 500 nœuds demande tuning réseau custom.
Le vrai signal : AWS abandonne l'approche 'boîte noire SageMaker' pour jouer l'intégration OSS. Competing on infrastructure, pas sur abstractions propriétaires.

