Subquadratic vient de lever le voile sur SubQ, un modèle de langage qui remplace l'architecture d'attention classique par un mécanisme « sous-quadratique ». Concrètement : là où les LLM actuels consomment des ressources qui explosent exponentiellement avec la longueur du contexte, SubQ maintient cette courbe plate. Le calcul, c'est comme bâtir un mur : chaque brique supplémentaire ne coûte pas exponentiellement plus cher à placer.
Cet avancement s'attaque au problème récurrent des grands modèles : à partir de 100k tokens, les coûts d'inférence deviennent prohibitifs. Les fondations cloud, les appels API, même les recherche documentaire sur contexte long deviennent inviables économiquement. SubQ promet de contourner cette barrière, permettant des contextes « gigantesques » sans explosion exponentielle des coûts GPU.
C'est moins une innovation cosmétique qu'une révision du modèle économique des LLM eux-mêmes..
Pour les utilisateurs en production, l'impact est direct : traitement de rapports annuels complets, analyse de bases de données massives, ou ingestion de corpus documentaires entiers en une seule requête deviennent réalistes. C'est moins une innovation cosmétique qu'une révision du modèle économique des LLM eux-mêmes.

