← Retour 📈 marche

Parler comme un homme des cavernes réduit la facture Claude de 75%

Un développeur a découvert qu'en forçant Claude à répondre comme un homme préhistorique, les tokens de sortie chutent jusqu'à 75%. La blague est devenue une vraie stratégie de coût sur GitHub.
📅 mardi 7 avril 2026 ⏱ 3 min de lecture

Un développeur a posté une découverte sur Reddit qui a d'abord fait rire, puis réfléchir : forcer Claude à parler comme un homme des cavernes réduit les tokens de sortie jusqu'à 75%. Le post sur r/ClaudeAI a récolté 10 000 votes et plus de 400 commentaires en quelques jours.

Le principe est brutal de simplicité. Au lieu de laisser Claude ouvrir avec des politesses, narrer chaque étape et conclure avec une offre d'aide, on contraint le modèle à des phrases courtes et directes. Résultat d'abord, explication ensuite, rien de superflu. Une tâche de recherche web qui consommait environ 180 tokens de sortie tombe à 45. La blague tient en une phrase : pourquoi dire beaucoup de mots quand peu de mots suffisent.

Attention à ne pas confondre le chiffre marketing avec la réalité terrain. La réduction de 75% concerne uniquement les tokens de sortie. En session réelle, avec l'historique de conversation, les fichiers joints et les instructions système que le modèle relit à chaque tour, les économies effectives tournent plutôt autour de 25%. C'est déjà significatif, mais ce n'est pas le chiffre du titre.

La technique a immédiatement migré sur GitHub. Le développeur Shawnchee a packagé les règles en un skill standalone compatible avec Claude Code, Cursor, Windsurf, Copilot et plus de 40 autres agents. Dix règles simples : pas de phrases de remplissage, exécuter avant d'expliquer, pas de méta-commentaires, pas de préambule, pas de postambule, pas d'annonces d'outils, laisser le code parler. Les benchmarks du repo, vérifiés avec tiktoken, affichent des réductions de 68% sur les recherches web, 50% sur les éditions de code, 72% sur les échanges questions-réponses, pour une moyenne de 61% sur quatre tâches standard.

Un second repo, signé Julius Brussee et étoilé 562 fois, propose une approche en SKILL.md avec trois modes d'intensité : Normal, Lite et Ultra. Le modèle fait exactement le même travail, il répond juste beaucoup moins. Le code reste intact, les messages d'erreur sont cités exactement, les termes techniques ne bougent pas. Seul le wrapper verbal en prend un coup.

Des chercheurs dans le thread soulèvent une vraie question : est-ce qu'imposer un registre verbal appauvri dégrade aussi le raisonnement ? L'hypothèse n'est pas tranchée. Forcer un modèle dans une persona moins sophistiquée pourrait contaminer ses performances cognitives. À surveiller avant de déployer ça en production critique.

Le contexte tarifaire rend la blague sérieuse. Anthropic est parmi les fournisseurs les plus chers au token. Pour un développeur qui fait tourner des workflows agentiques avec des dizaines de tours par session, la verbosité du modèle n'est pas un défaut stylistique. C'est une ligne de budget. Remplacer un résumé en cinq phrases par un grunt préhistorique, ça se chiffre à la fin du mois.

Ce que ça change : Claude est puissant mais bavard, et chez Anthropic chaque mot coûte. Cette technique de compression forcée est peut-être ridicule à décrire, mais elle pointe un vrai problème structurel des LLMs : ils sont entraînés à rassurer et à expliquer, pas à être efficaces. Le mode caveman n'est pas une astuce de geek — c'est un symptôme de modèles sur-optimisés pour plaire plutôt que pour performer.

A lire aussi