Ogni sessione con Claude Code spreca decine di migliaia di token per inefficienze evitabili. Ecco le tecniche concrete — dal Caveman Mode all'opusplan — per lavorare di più con meno.
In breve
Ogni sessione con Claude Code spreca decine di migliaia di token per inefficienze evitabili. Ecco le tecniche concrete — dal Caveman Mode all'opusplan — per lavorare di più con meno.
Hai aperto Claude Code, hai iniziato una sessione di coding, e dopo mezz'ora ti trovi con il limite di utilizzo raggiunto. Suona familiare?
Non è colpa tua — è la configurazione di default.
Anthropic ha ottimizzato Claude per la qualità, non per l'efficienza. Il risultato: ogni messaggio trascina dietro di sé l'intera cronologia della chat, Opus ragiona in dettaglio anche per task banali, e le risposte sono piene di cortesie che consumano token senza aggiungere valore.
In questo articolo ti spiego esattamente come funziona il problema, e ti do gli strumenti per risolverlo.
Prima di parlare di soluzioni, è importante capire il meccanismo.
Ogni messaggio che invii a Claude non viene processato isolatamente: porta con sé tutta la conversazione precedente. Questo si chiama context window, e più una chat dura, più token vengono utilizzati a ogni singolo turno.
Una sessione lunga con un CLAUDE.md di 5.000 token significa che quei 5.000 token vengono caricati prima ancora che tu abbia scritto una parola, ad ogni turno.
Claude Opus, il modello più capace, è configurato di default in molti flussi di lavoro. Il problema è che brucia centinaia di migliaia di token anche per task semplicissime — quelle per cui basterebbe Sonnet.
Secondo i benchmark interni, nelle sessioni tipiche da sviluppatore:
Caveman Mode è una skill open source per Claude Code sviluppata da Julius Brussee che fa parlare Claude come un cavernicolo — letteralmente.
Invece di rispondere con frasi complete, spiegazioni estese e saluti di cortesia, Claude passa a uno stile telegrafico: frammenti senza articoli, zero "Ottima domanda!", nessun "Fammi sapere se hai bisogno di altro".
# Risposta normale di Claude:
"Certo! Posso aiutarti con questo. Il problema che stai
descrivendo è comune nelle applicazioni React. Quello che
dovrai fare è aggiornare lo stato in questo modo..."
# Risposta in Caveman Mode:
"useEffect cleanup missing. Add return () => clearTimeout(t)"
I benchmark su 11 task reali mostrano una media di 294 token per risposta vs 1.214 in modalità normale — un calo del 65%.
Per attivarlo:
# Installa la skill (scegli uno dei due metodi)
claude plugin marketplace add JuliusBrussee/caveman
claude plugin install caveman@caveman
# oppure via npx
npx skills add JuliusBrussee/caveman
# Attivala durante la sessione
/caveman
# oppure scrivi "less tokens please" o "caveman mode"
La cosa interessante? Il codice prodotto è identico in qualità. Perdi solo le frasi di cortesia.
Il comando /model opusplan attiva un approccio ibrido automatico:
Questa divisione del lavoro rispecchia come funziona il cervello umano: pensi in profondità prima di agire, poi agisci in modo efficiente.
Il risparmio stimato è significativo perché Opus costa circa 3x Sonnet per token di output. Usarlo solo per il planning — dove davvero eccelle — è una scelta sia economica che qualitativa.
# Attiva il mode ibrido
/model opusplan
# Per task semplici, rimani su Sonnet
/model sonnet
# Passa a Opus solo per architettura/refactoring complessi
/model opus
La context window da 1 milione di token di Claude Opus 4.7 non significa che devi riempirla. Anzi, è il contrario.
Alcune pratiche concrete:
Usa /compact proattivamente
Quando noti che Claude inizia a perdere il filo, lancia /compact. Il comando comprime la cronologia della conversazione in un riassunto denso, recuperando decine di migliaia di token senza perdere il contesto essenziale.
Usa /clear tra task diversi
Se stai passando da un feature a una bugfix completamente diversa, una sessione pulita è molto più efficiente che trascinare un contesto irrilevante.
Ottimizza il CLAUDE.md Un CLAUDE.md pesante costa token a ogni turno. Tienilo conciso, orientato alle regole fondamentali, non come documentazione completa del progetto. Punta a mantenerlo sotto 2.000 token se possibile.
# Esempio di CLAUDE.md ottimizzato
- Stack: Next.js 14, TypeScript, Tailwind
- Test: vitest, sempre scrivere test per nuove funzioni
- Stile: functional components, no class components
- Vietato: console.log in produzione
Claude spiega il suo ragionamento in dettaglio. È utile quando stai imparando — è costoso quando stai shipando.
Aggiungere queste istruzioni al CLAUDE.md riduce i token di risposta del 30-50%:
# Nel tuo CLAUDE.md
## Stile di risposta
- Sii conciso. Niente spiegazioni se non richieste.
- No: "Ottimo! Posso sicuramente aiutarti con questo..."
- No: "Fammi sapere se hai bisogno di chiarimenti!"
- Sì: vai diretto al punto
- Per il codice: mostra il diff, non l'intero file
Il ragionamento esteso di Opus riserva fino a 31.999 token di output per il processo interno di thinking. Per task semplici, questo è un costo nascosto enorme.
Puoi controllarlo nelle impostazioni di Claude Code o via API:
{
"thinking": {
"type": "disabled"
}
}
Tienilo attivo solo per architettura complessa, debugging difficile, o decisioni con alto impatto.
Ecco una ripartizione realistica di una sessione da 100.000 token:
| Fonte | Token stimati | Ottimizzabile? |
|---|---|---|
| Context window cumulativa | ~40.000 | ✅ Con /compact e /clear |
| CLAUDE.md per turno | ~5.000–15.000 | ✅ Ottimizzando il file |
| Risposta verbosa di Claude | ~6.000 | ✅ Con Caveman Mode |
| Ragionamento esteso | ~20.000 | ✅ Disabilitando extended thinking |
| Codice effettivo prodotto | ~15.000 | ❌ Necessario |
Con le tecniche giuste, puoi portare una sessione equivalente da 100.000 token a 35.000–40.000 — mantenendo lo stesso output di codice.
/model opusplan/compact/clearVuoi implementare queste ottimizzazioni nel tuo flusso di lavoro? Siamo consulenti AI per PMI italiane. Prenota una call gratuita →