Tutti gli articoli
di lettura

Il tuo Claude Code brucia token inutilmente? Ecco come smettere.

Ogni sessione con Claude Code spreca decine di migliaia di token per inefficienze evitabili. Ecco le tecniche concrete — dal Caveman Mode all'opusplan — per lavorare di più con meno.

In breve

Risposta rapida

Ogni sessione con Claude Code spreca decine di migliaia di token per inefficienze evitabili. Ecco le tecniche concrete — dal Caveman Mode all'opusplan — per lavorare di più con meno.

Categoria
Aggiornato
24 aprile 2026

Il tuo Claude Code brucia token inutilmente?

Hai aperto Claude Code, hai iniziato una sessione di coding, e dopo mezz'ora ti trovi con il limite di utilizzo raggiunto. Suona familiare?

Non è colpa tua — è la configurazione di default.

Anthropic ha ottimizzato Claude per la qualità, non per l'efficienza. Il risultato: ogni messaggio trascina dietro di sé l'intera cronologia della chat, Opus ragiona in dettaglio anche per task banali, e le risposte sono piene di cortesie che consumano token senza aggiungere valore.

In questo articolo ti spiego esattamente come funziona il problema, e ti do gli strumenti per risolverlo.


Perché i token finiscono così in fretta

Prima di parlare di soluzioni, è importante capire il meccanismo.

La context window è cumulativa

Ogni messaggio che invii a Claude non viene processato isolatamente: porta con sé tutta la conversazione precedente. Questo si chiama context window, e più una chat dura, più token vengono utilizzati a ogni singolo turno.

Una sessione lunga con un CLAUDE.md di 5.000 token significa che quei 5.000 token vengono caricati prima ancora che tu abbia scritto una parola, ad ogni turno.

Opus è potente ma costoso

Claude Opus, il modello più capace, è configurato di default in molti flussi di lavoro. Il problema è che brucia centinaia di migliaia di token anche per task semplicissime — quelle per cui basterebbe Sonnet.

Secondo i benchmark interni, nelle sessioni tipiche da sviluppatore:

  • 62.5% dei token consumati sono "inutili" (verbosità, cortesie, ragionamento eccessivo)
  • 37.5% è il contenuto realmente essenziale

Le tecniche per ottimizzare

1. Caveman Mode: il trucco più virale

Caveman Mode è una skill open source per Claude Code sviluppata da Julius Brussee che fa parlare Claude come un cavernicolo — letteralmente.

Invece di rispondere con frasi complete, spiegazioni estese e saluti di cortesia, Claude passa a uno stile telegrafico: frammenti senza articoli, zero "Ottima domanda!", nessun "Fammi sapere se hai bisogno di altro".

# Risposta normale di Claude:
"Certo! Posso aiutarti con questo. Il problema che stai 
descrivendo è comune nelle applicazioni React. Quello che 
dovrai fare è aggiornare lo stato in questo modo..."

# Risposta in Caveman Mode:
"useEffect cleanup missing. Add return () => clearTimeout(t)"

I benchmark su 11 task reali mostrano una media di 294 token per risposta vs 1.214 in modalità normale — un calo del 65%.

Per attivarlo:

# Installa la skill (scegli uno dei due metodi)
claude plugin marketplace add JuliusBrussee/caveman
claude plugin install caveman@caveman

# oppure via npx
npx skills add JuliusBrussee/caveman

# Attivala durante la sessione
/caveman
# oppure scrivi "less tokens please" o "caveman mode"

La cosa interessante? Il codice prodotto è identico in qualità. Perdi solo le frasi di cortesia.

2. opusplan: usa Opus solo dove conta

Il comando /model opusplan attiva un approccio ibrido automatico:

  • Opus viene usato nella fase di pianificazione (dove il suo ragionamento profondo vale ogni token)
  • Sonnet prende il controllo nella fase di implementazione (dove la velocità conta più della profondità)

Questa divisione del lavoro rispecchia come funziona il cervello umano: pensi in profondità prima di agire, poi agisci in modo efficiente.

Il risparmio stimato è significativo perché Opus costa circa 3x Sonnet per token di output. Usarlo solo per il planning — dove davvero eccelle — è una scelta sia economica che qualitativa.

# Attiva il mode ibrido
/model opusplan

# Per task semplici, rimani su Sonnet
/model sonnet

# Passa a Opus solo per architettura/refactoring complessi
/model opus

3. Gestione intelligente del contesto

La context window da 1 milione di token di Claude Opus 4.7 non significa che devi riempirla. Anzi, è il contrario.

Alcune pratiche concrete:

Usa /compact proattivamente Quando noti che Claude inizia a perdere il filo, lancia /compact. Il comando comprime la cronologia della conversazione in un riassunto denso, recuperando decine di migliaia di token senza perdere il contesto essenziale.

Usa /clear tra task diversi Se stai passando da un feature a una bugfix completamente diversa, una sessione pulita è molto più efficiente che trascinare un contesto irrilevante.

Ottimizza il CLAUDE.md Un CLAUDE.md pesante costa token a ogni turno. Tienilo conciso, orientato alle regole fondamentali, non come documentazione completa del progetto. Punta a mantenerlo sotto 2.000 token se possibile.

# Esempio di CLAUDE.md ottimizzato
- Stack: Next.js 14, TypeScript, Tailwind
- Test: vitest, sempre scrivere test per nuove funzioni
- Stile: functional components, no class components
- Vietato: console.log in produzione

4. Riduci la verbosità di default

Claude spiega il suo ragionamento in dettaglio. È utile quando stai imparando — è costoso quando stai shipando.

Aggiungere queste istruzioni al CLAUDE.md riduce i token di risposta del 30-50%:

# Nel tuo CLAUDE.md
## Stile di risposta
- Sii conciso. Niente spiegazioni se non richieste.
- No: "Ottimo! Posso sicuramente aiutarti con questo..."
- No: "Fammi sapere se hai bisogno di chiarimenti!"
- Sì: vai diretto al punto
- Per il codice: mostra il diff, non l'intero file

5. Disabilita l'extended thinking per task semplici

Il ragionamento esteso di Opus riserva fino a 31.999 token di output per il processo interno di thinking. Per task semplici, questo è un costo nascosto enorme.

Puoi controllarlo nelle impostazioni di Claude Code o via API:

{
  "thinking": {
    "type": "disabled"
  }
}

Tienilo attivo solo per architettura complessa, debugging difficile, o decisioni con alto impatto.


Il quadro completo: dove vanno i tuoi token

Ecco una ripartizione realistica di una sessione da 100.000 token:

FonteToken stimatiOttimizzabile?
Context window cumulativa~40.000✅ Con /compact e /clear
CLAUDE.md per turno~5.000–15.000✅ Ottimizzando il file
Risposta verbosa di Claude~6.000✅ Con Caveman Mode
Ragionamento esteso~20.000✅ Disabilitando extended thinking
Codice effettivo prodotto~15.000❌ Necessario

Con le tecniche giuste, puoi portare una sessione equivalente da 100.000 token a 35.000–40.000 — mantenendo lo stesso output di codice.


Riepilogo: la strategia ottimale

  1. Default: usa Sonnet, non Opus
  2. Per planning/architettura: attiva /model opusplan
  3. Per ridurre verbosità: installa e usa Caveman Mode
  4. Ogni 30–40 minuti: lancia /compact
  5. Tra task diversi: usa /clear
  6. CLAUDE.md: tienilo sotto 2.000 token e conciso
  7. Extended thinking: disabilitalo per task semplici

Risorse e approfondimenti


Vuoi implementare queste ottimizzazioni nel tuo flusso di lavoro? Siamo consulenti AI per PMI italiane. Prenota una call gratuita →