Fundamentos · Consumo

Cómo se componen los tokens de input y output — y qué confunde en el camino.

Cuando usás Claude, no pagás "la pregunta". Pagás por cada cosa que el modelo lee antes de responder (input) y cada cosa que genera (output). Acá lo vemos desglosado en los 3 productos: Chat, Cowork y Code.

Base

Input vs output en 30 segundos

Dos lados del mismo intercambio. Los dos cuentan, pero se cobran distinto.

INPUT

Todo lo que Claude lee antes de responder

El system prompt, las skills, la memoria del usuario, el historial de la conversación, los archivos que adjuntaste, los resultados de las herramientas que usó en turnos previos y tu mensaje actual. Todo junto entra a la ventana de contexto.

Sonnet 4.5: USD 3 / 1M tokens

OUTPUT

Todo lo que Claude genera

El texto que ves como respuesta, el thinking interno (si usa extended thinking), las llamadas a tools (JSON), y el contenido de los artifacts. No cuenta el archivo físico exportado — cuenta el texto que Claude escribió para armarlo.

Sonnet 4.5: USD 15 / 1M tokens · 5× más caro

Lo que confunde

Ambigüedades que cambian la factura a fin de mes

La diferencia entre "esto cuenta" y "esto no cuenta" es donde la mayoría se pierde. Los casos más frecuentes:

Ambigüedad típica

Exportar un PDF

El archivo PDF exportado no consume tokens

✓

La skill que lo arma sí (SKILL.md + references)

✓

El texto que Claude genera dentro del PDF sí (output)

Ambigüedad típica

Ejecutar un script de skill

Ejecutar scripts/ocr.py no suma tokens

✓

Leer el SKILL.md que lo describe sí

✓

El texto que el script devuelve se agrega al contexto

Ambigüedad típica

Extended thinking

✓

El thinking sí cuenta como output — aunque no lo leas

No se ve en la ventana, pero está en la factura

✓

Por eso las tareas "difíciles" son más caras sin que lo notes

Ambigüedad típica

Imagen generada / leída

✓

Subir una imagen consume tokens (≈ 1568t por imagen estándar)

El archivo visual generado no cuenta

✓

El prompt que Claude armó para generarla, sí

Ambigüedad típica

Tool results (búsqueda web, Bash)

✓

El resultado que devuelve la herramienta se lee como input en el siguiente turno

✓

Por eso una búsqueda que trae 10 resultados largos es costosa

✓

Lo mismo con outputs largos de Bash o logs

Ambigüedad típica

Cache (prompt caching)

El contenido cacheado se cobra 10× menos (0.30 USD/MTok)

✓

Primera vez paga normal, después queda cacheado 5 min

✓

El system prompt largo vale la pena cachearlo

Producto 1

Claude Chat — claude.ai

El chat web. Input heterogéneo porque incluye todo lo que armaste en tu cuenta (projects, skills, memoria) más lo que pegás en el chat.

💬

Chat

Sesión en claude.ai con proyecto y skills activos

Input · qué lee Claude ~ 8.500 tokens

SysSystem prompt · ~500t

Skills metadataSkills (progressive disclosure) · ~1.200t

MemoriaPreferencias de usuario · ~700t

Historial chatTurnos previos en la sesión · ~2.400t

Archivo adjuntoPDF/Excel que subiste · ~2.500t

Project filesArchivos del Project · ~700t

MsgTu mensaje actual · ~500t

System 500 Skills 1.200 Memoria 700 Historial 2.400 Archivo 2.500 Project 700 Mensaje 500

Output · qué genera Claude ~ 1.800 tokens

ThinkingRazonamiento interno (si activo) · ~350t

Respuesta visibleEl texto que ves en el chat · ~1.000t

ArtifactCódigo o markdown del artifact · ~450t

Thinking 350 Respuesta 1.000 Artifact 450

Ejemplo real: le subís un PDF con un informe (≈2.500t), tenés 4 skills cargados (≈1.200t de metadata), 3 turnos previos de chat (≈2.400t) y le pedís que te arme un resumen con tabla de datos. Claude genera un resumen de texto + un artifact markdown con la tabla. Total: ~8.500t input + ~1.800t output ≈ USD 0,054 esa respuesta.

Producto 2

Claude Cowork

El entorno colaborativo donde trabajás con Claude sobre documentos compartidos. El input crece con el workspace — no con cada mensaje individual.

🧑‍🤝‍🧑

Cowork

Workspace compartido, documentos vivos, contexto sostenido

Input · qué lee Claude ~ 12.000 tokens

SysSystem prompt Cowork · ~600t

SkillsSkills del workspace · ~1.200t

Documentos del workspaceDocs compartidos activos · ~4.800t

Historial colaborativoEdiciones y comentarios previos · ~3.000t

Archivos indexadosVector store del workspace · ~1.700t

MsgTu mensaje actual · ~700t

System 600 Skills 1.200 Docs 4.800 Historial 3.000 Vector 1.700 Mensaje 700

Output · qué genera Claude ~ 2.400 tokens

ThinkingRazonamiento · ~450t

MensajeRespuesta en chat · ~500t

Doc editadoContenido generado dentro del doc · ~1.250t

EditsOperaciones de edición · ~200t

Thinking 450 Mensaje 500 Doc 1.250 Edits 200

Ejemplo real: en un workspace con 5 documentos activos (≈4.800t) y 2 horas de historial colaborativo (≈3.000t), pedís que reescriba una sección del plan estratégico. Claude edita directamente el doc. ~12.000t input + ~2.400t output. El input es alto porque el workspace "carga" con vos, pero se cachea muy bien entre turnos.

Producto 3

Claude Code — CLI

El agente de código. Input explota porque Claude lee archivos, corre comandos y los resultados se acumulan. Output también explota porque piensa mucho.

</>

Code

Agente en terminal con acceso a archivos, bash y MCP

Input · qué lee Claude ~ 35.000 tokens

SystemSystem prompt de Claude Code · ~3.500t

CLAUDE.mdMemoria del proyecto · ~1.500t

ToolsDescripciones de tools + MCP · ~3.000t

Archivos leídosOutputs de Read/Grep/Glob · ~10.500t

Outputs de BashResultados de comandos · ~8.500t

Tool results previosAcumulado de turnos previos · ~6.500t

PromptTu mensaje · ~1.500t

System 3.500 CLAUDE.md 1.500 Tools 3.000 Reads 10.500 Bash 8.500 Historial tools 6.500 Prompt 1.500

Output · qué genera Claude ~ 6.500 tokens

Thinking extensivoClaude Code piensa mucho entre tools · ~2.600t

Tool calls (Edit, Bash...)JSON para ejecutar tools · ~2.300t

Mensaje al usuarioTexto visible al usuario · ~1.000t

Código escritoContenido que Edit/Write escribe · ~600t

Thinking 2.600 Tool calls 2.300 Mensaje 1.000 Código 600

Ejemplo real: le pedís a Claude Code que busque un bug en tu repo. Hace Grep, Read sobre 6 archivos, corre los tests con Bash, razona entre medio, y edita 2 archivos. Los resultados de cada tool se apilan en el contexto. ~35.000t input + ~6.500t output ≈ USD 0,20 esa sesión. Por eso Claude Code es el más caro: el acumulado de tool results pega duro.

Para llevarte

El output es 5× más caro, pero el input es el que crece sin que lo notes.

Una respuesta larga duele en el bolsillo, pero lo que más escala el costo en Chat y Cowork es el historial + archivos adjuntos + vector store. En Code, los outputs de tools que se acumulan en el contexto. La regla que funciona: empezá chats nuevos cuando cambia el tema, cacheá lo que repetís (system prompts largos, docs que no cambian), y diseñá skills con progressive disclosure para no pagar lo que no usás.