Guerre des prix des modèles d'IA : DeepSeek baisse de 75%, l'ère des Token commence
En mai 2026, l’industrie de l’IA a connu un événement plus structurant que toute sortie de nouveau modèle : DeepSeek a annoncé une baisse de prix permanente de 75% sur l’API V4 Pro.
Ce n’est pas une promotion. C’est un transfert de pouvoir de fixation des prix.
Trois signes de l’effondrement des prix
| Événement | Date | Signification |
|---|---|---|
| Baisse de 75% de l’API DeepSeek V4 Pro | Mai 2026 | Premier modèle d’IA domestique à atteindre le prix le plus bas au monde |
| Trois grands opérateurs lancent des forfaits Token | Mai 2026 | La puissance de calcul entre dans la phase infrastructure à facturation à l’usage |
| Volume quotidien de Token en Chine dépasse 140 billions | Mai 2026 | Croissance d’environ 1000x en deux ans, courbe de demande très forte |
Ces trois événements ensemble indiquent une chose : le Token passe d’un “coût technologique” à un “coût d’infrastructure”, similaire à la bande passante et au stockage à l’ère du cloud.
Comparaison des prix mondiaux : Qui a encore des marges ?
| Fournisseur | Modèle | Prix d’entrée (/million Token) | Prix de sortie (/million Token) |
|---|---|---|---|
| DeepSeek | V4 Pro | ~ ¥0,5 | ~ ¥2 |
| OpenAI | GPT-5.5 Instant | ~ $0,5 | ~ $1,5 |
| Baidu | Wenxin 5.1 | ~ ¥1,2 | ~ ¥4 |
| Gemini 3.5 | ~ $0,35 | ~ $1,4 |
La stratégie tarifaire de DeepSeek est claire : échanger des prix extrêmement bas contre une position d’écosystème, verrouiller d’abord les développeurs dans son système d’appel, puis monétiser via des services d’entreprise et des scénarios verticaux.
Ce n’est pas une concurrence déloyale. C’est un chemin déjà validé à l’ère du cloud.
Ce que signifie l’entrée des opérateurs
China Mobile, Unicom et Telecom lancent simultanément des forfaits Token, un signal plus profond que la baisse des prix des modèles.
- Marchandisation de la puissance de calcul : Les Token sont vendus par forfaits comme le trafic de données, permettant aux entreprises de prévoir leurs coûts IA mensuels
- Edge du réseau : Les opérateurs peuvent déployer des nœuds d’inférence dans des centres de données provinciaux, réduisant la latence
- Boucle de conformité : Les données ne quittent pas le pays, les appels sont traçables, répondant aux exigences réglementaires strictes pour la finance et le gouvernement
Quand les opérateurs commencent à vendre des Token, les grands modèles ne sont plus le jeu exclusif des entreprises technologiques, mais une partie de l’infrastructure numérique nationale.
Impact pratique sur les développeurs
Une baisse de 75% n’est pas un jeu de chiffres. Elle change directement le modèle techno-économique des produits.
Ce qui était impossible avant est maintenant faisable :
- RAG à long contexte (Retrieval-Augmented Generation) : Auparavant trop cher pour des contextes de 100k Token, maintenant viable en usage courant
- Transcription vocale en temps réel + traduction : La barrière de coût des appels en streaming disparaît
- Traitement de documents par lots : Traiter 1000 contrats PDF en une fois, coût passant de milliers à centaines de yuans
Ce qui était risqué à tester avant vaut maintenant la peine d’être expérimenté :
- Routage multi-modèles : Changement automatique de modèle selon la complexité de la tâche, les coûts restent contrôlables
- Ajustement fin à haute fréquence : Optimiser continuellement les petits modèles avec des données d’appel réelles, coût marginal tendant vers zéro
Risque : Que se passe-t-il après la guerre des prix ?
Un prix bas n’est pas synonyme de santé. Trois problèmes potentiels à surveiller :
-
Dilution de la qualité de service : Le prix extrêmement bas s’accompagne-t-il d’une latence accrue et d’une disponibilité réduite ? La capacité de charge simultanée de DeepSeek n’a pas encore été testée à grande échelle.
-
Déplacement de la motivation à innover : Quand les appels de base ne sont pas rentables, où se tournent les fournisseurs ? Services d’entreprise, déploiement privé, modèles verticaux sectoriels — c’est en fait positif, car cela signifie que la stratification du marché commence à se former.
-
Pouvoir de fixation des prix à l’exportation : Les modèles domestiques sont extrêmement bas à l’intérieur, mais comment les tarifer à l’étranger ? Si les marchés mondiaux suivent la baisse, les marges de profit d’OpenAI et d’Anthropic seront compressées, pouvant déclencher une course aux armements technologiques plus intense.
Conclusion
L’effondrement des prix des Token n’est pas la fin, c’est le commencement.
Cela signifie que la barrière à l’innovation dans la couche applicative de l’IA est considérablement abaissée. En 2024, développer une application IA nécessitait de prendre en compte les coûts des modèles ; en 2026, cette contrainte a essentiellement disparu. Le prochain champ de compétition se déplace vers :
- Conception de l’expérience produit
- Construction de la roue de données
- Profondeur du savoir-faire sectoriel
En d’autres termes, la couche modèle se concurrence sur les prix, la couche application sur la valeur. C’est favorable aux développeurs.
Source : Annonce officielle de DeepSeek, communiqués de presse des trois grands opérateurs, informations publiques de l’Administration nationale du cyberspace, compilation de données sectorielles.