Capacitación IA / Consumo de tokens
Módulo · Seeds
Fundamentos · Consumo

Cómo se componen los tokens de input y output — y qué confunde en el camino.

Cuando usás Claude, no pagás "la pregunta". Pagás por cada cosa que el modelo lee antes de responder (input) y cada cosa que genera (output). Acá lo vemos desglosado en los 3 productos: Chat, Cowork y Code.

Base

Input vs output en 30 segundos

Dos lados del mismo intercambio. Los dos cuentan, pero se cobran distinto.

INPUT

Todo lo que Claude lee antes de responder

El system prompt, las skills, la memoria del usuario, el historial de la conversación, los archivos que adjuntaste, los resultados de las herramientas que usó en turnos previos y tu mensaje actual. Todo junto entra a la ventana de contexto.

Sonnet 4.5: USD 3 / 1M tokens
OUTPUT

Todo lo que Claude genera

El texto que ves como respuesta, el thinking interno (si usa extended thinking), las llamadas a tools (JSON), y el contenido de los artifacts. No cuenta el archivo físico exportado — cuenta el texto que Claude escribió para armarlo.

Sonnet 4.5: USD 15 / 1M tokens · 5× más caro
Lo que confunde

Ambigüedades que cambian la factura a fin de mes

La diferencia entre "esto cuenta" y "esto no cuenta" es donde la mayoría se pierde. Los casos más frecuentes:

Ambigüedad típica
Exportar un PDF
El archivo PDF exportado no consume tokens
La skill que lo arma sí (SKILL.md + references)
El texto que Claude genera dentro del PDF sí (output)
Ambigüedad típica
Ejecutar un script de skill
Ejecutar scripts/ocr.py no suma tokens
Leer el SKILL.md que lo describe sí
El texto que el script devuelve se agrega al contexto
Ambigüedad típica
Extended thinking
El thinking sí cuenta como output — aunque no lo leas
No se ve en la ventana, pero está en la factura
Por eso las tareas "difíciles" son más caras sin que lo notes
Ambigüedad típica
Imagen generada / leída
Subir una imagen consume tokens (≈ 1568t por imagen estándar)
El archivo visual generado no cuenta
El prompt que Claude armó para generarla, sí
Ambigüedad típica
Tool results (búsqueda web, Bash)
El resultado que devuelve la herramienta se lee como input en el siguiente turno
Por eso una búsqueda que trae 10 resultados largos es costosa
Lo mismo con outputs largos de Bash o logs
Ambigüedad típica
Cache (prompt caching)
El contenido cacheado se cobra 10× menos (0.30 USD/MTok)
Primera vez paga normal, después queda cacheado 5 min
El system prompt largo vale la pena cachearlo
Producto 1

Claude Chat — claude.ai

El chat web. Input heterogéneo porque incluye todo lo que armaste en tu cuenta (projects, skills, memoria) más lo que pegás en el chat.

💬

Chat

Sesión en claude.ai con proyecto y skills activos

Input · qué lee Claude ~ 8.500 tokens
SysSystem prompt · ~500t
Skills metadataSkills (progressive disclosure) · ~1.200t
MemoriaPreferencias de usuario · ~700t
Historial chatTurnos previos en la sesión · ~2.400t
Archivo adjuntoPDF/Excel que subiste · ~2.500t
Project filesArchivos del Project · ~700t
MsgTu mensaje actual · ~500t
System 500 Skills 1.200 Memoria 700 Historial 2.400 Archivo 2.500 Project 700 Mensaje 500
Output · qué genera Claude ~ 1.800 tokens
ThinkingRazonamiento interno (si activo) · ~350t
Respuesta visibleEl texto que ves en el chat · ~1.000t
ArtifactCódigo o markdown del artifact · ~450t
Thinking 350 Respuesta 1.000 Artifact 450
Ejemplo real: le subís un PDF con un informe (≈2.500t), tenés 4 skills cargados (≈1.200t de metadata), 3 turnos previos de chat (≈2.400t) y le pedís que te arme un resumen con tabla de datos. Claude genera un resumen de texto + un artifact markdown con la tabla. Total: ~8.500t input + ~1.800t output ≈ USD 0,054 esa respuesta.
Producto 2

Claude Cowork

El entorno colaborativo donde trabajás con Claude sobre documentos compartidos. El input crece con el workspace — no con cada mensaje individual.

🧑‍🤝‍🧑

Cowork

Workspace compartido, documentos vivos, contexto sostenido

Input · qué lee Claude ~ 12.000 tokens
SysSystem prompt Cowork · ~600t
SkillsSkills del workspace · ~1.200t
Documentos del workspaceDocs compartidos activos · ~4.800t
Historial colaborativoEdiciones y comentarios previos · ~3.000t
Archivos indexadosVector store del workspace · ~1.700t
MsgTu mensaje actual · ~700t
System 600 Skills 1.200 Docs 4.800 Historial 3.000 Vector 1.700 Mensaje 700
Output · qué genera Claude ~ 2.400 tokens
ThinkingRazonamiento · ~450t
MensajeRespuesta en chat · ~500t
Doc editadoContenido generado dentro del doc · ~1.250t
EditsOperaciones de edición · ~200t
Thinking 450 Mensaje 500 Doc 1.250 Edits 200
Ejemplo real: en un workspace con 5 documentos activos (≈4.800t) y 2 horas de historial colaborativo (≈3.000t), pedís que reescriba una sección del plan estratégico. Claude edita directamente el doc. ~12.000t input + ~2.400t output. El input es alto porque el workspace "carga" con vos, pero se cachea muy bien entre turnos.
Producto 3

Claude Code — CLI

El agente de código. Input explota porque Claude lee archivos, corre comandos y los resultados se acumulan. Output también explota porque piensa mucho.

</>

Code

Agente en terminal con acceso a archivos, bash y MCP

Input · qué lee Claude ~ 35.000 tokens
SystemSystem prompt de Claude Code · ~3.500t
CLAUDE.mdMemoria del proyecto · ~1.500t
ToolsDescripciones de tools + MCP · ~3.000t
Archivos leídosOutputs de Read/Grep/Glob · ~10.500t
Outputs de BashResultados de comandos · ~8.500t
Tool results previosAcumulado de turnos previos · ~6.500t
PromptTu mensaje · ~1.500t
System 3.500 CLAUDE.md 1.500 Tools 3.000 Reads 10.500 Bash 8.500 Historial tools 6.500 Prompt 1.500
Output · qué genera Claude ~ 6.500 tokens
Thinking extensivoClaude Code piensa mucho entre tools · ~2.600t
Tool calls (Edit, Bash...)JSON para ejecutar tools · ~2.300t
Mensaje al usuarioTexto visible al usuario · ~1.000t
Código escritoContenido que Edit/Write escribe · ~600t
Thinking 2.600 Tool calls 2.300 Mensaje 1.000 Código 600
Ejemplo real: le pedís a Claude Code que busque un bug en tu repo. Hace Grep, Read sobre 6 archivos, corre los tests con Bash, razona entre medio, y edita 2 archivos. Los resultados de cada tool se apilan en el contexto. ~35.000t input + ~6.500t output ≈ USD 0,20 esa sesión. Por eso Claude Code es el más caro: el acumulado de tool results pega duro.
Para llevarte

El output es 5× más caro, pero el input es el que crece sin que lo notes.

Una respuesta larga duele en el bolsillo, pero lo que más escala el costo en Chat y Cowork es el historial + archivos adjuntos + vector store. En Code, los outputs de tools que se acumulan en el contexto. La regla que funciona: empezá chats nuevos cuando cambia el tema, cacheá lo que repetís (system prompts largos, docs que no cambian), y diseñá skills con progressive disclosure para no pagar lo que no usás.