Cómo reducir el coste de las llamadas a la API de LLMs
22 de mayo de 2026· 6 min read
Cuando un sistema de IA empieza a escalar, el coste de las APIs de LLM puede sorprender. Un sistema que costaba 50€/mes con 1.000 usuarios puede costar 5.000€/mes con 100.000 usuarios si no se optimiza.
Esta guía recoge las técnicas que más reducen el coste en la práctica, con ejemplos concretos.
Por qué sube el coste
El coste de una API de LLM se calcula así:
Coste = (tokens_entrada × precio_entrada) + (tokens_salida × precio_salida)
Los tokens de salida suelen ser 3-5 veces más caros que los de entrada. En GPT-4o, por ejemplo: 5$/1M tokens entrada vs 15$/1M tokens salida.
El coste escala linealmente con el volumen, pero puede reducirse sustancialmente con las técnicas correctas.
1. Reducir tokens de entrada
Esta es la palanca más poderosa. Un contexto más corto = menos coste por llamada.
Comprimir el system prompt
Muchos system prompts tienen repeticiones, ejemplos innecesarios y texto redundante. Audítalos con regularidad.
Antes:
"Eres un asistente de soporte al cliente de la empresa Acme Corp. Tu función es ayudar a los clientes con sus preguntas y dudas sobre los productos y servicios de Acme Corp. Debes responder siempre de forma amable, profesional y útil. Si no sabes la respuesta, debes decírselo al cliente de forma honesta. Recuerda que representas a Acme Corp y debes mantener siempre una imagen profesional..."
Después:
"Asistente de soporte de Acme Corp. Responde de forma amable y precisa. Si no sabes algo, dilo honestamente. Escala al equipo si: el cliente está frustrado tras 2 turnos sin solución / hay pérdida de datos / requiere acción en cuenta."
El segundo tiene la misma información funcional pero ocupa la mitad de tokens.
Comprimir el historial de conversación
En conversaciones largas, no necesitas mantener todos los mensajes. Dos estrategias:
Ventana deslizante: mantén solo los últimos N mensajes (ej: últimos 5 pares).
Resumen periódico: cada 10 mensajes, genera un resumen y descarta el historial original.
[Resumen de los últimos 10 mensajes]
El usuario preguntó sobre el retraso en su pedido #12345.
Se confirmó que el pedido está en tránsito desde el 15/05 y llegará el 22/05.
El usuario expresó preocupación por el plazo. Se le ofreció seguimiento prioritario.
Este resumen ocupa 60 tokens vs los 800 tokens del historial completo.
RAG en lugar de contexto completo
En lugar de poner 50 páginas de documentación en el contexto, usa RAG para recuperar solo los 3-5 fragmentos más relevantes para cada pregunta. El coste puede reducirse un 80-90%.
2. Reducir tokens de salida
Los tokens de salida son los más caros. Varias formas de reducirlos:
Instrucciones de brevedad en el system prompt
"Respuestas máximo 150 palabras. Usa bullet points cuando haya más de 2 puntos. Sin introducción ni conclusión redundante."
Estructurar la salida con JSON
Si necesitas datos estructurados, usar JSON hace que el modelo sea más directo y predecible. Menos palabras de relleno, más señal.
Dividir tareas en pasos
En lugar de pedir al modelo que razone extensamente en una respuesta larga, divide la tarea:
- Paso 1: clasificar (respuesta corta)
- Paso 2: si es categoría X, procesar con prompt específico (respuesta controlada)
Dos llamadas pequeñas pueden costar menos que una respuesta larga.
3. Caching de respuestas
Caching semántico
Para preguntas frecuentes, en lugar de hacer una llamada al LLM, devuelves una respuesta cacheada de una pregunta similar anterior.
Herramientas: GPTCache, Semantic Cache de Redis.
Funciona bien cuando: hay muchas preguntas repetidas o muy similares (FAQs, soporte técnico estándar).
Ahorro típico: 30-60% en sistemas con preguntas frecuentes.
Prompt caching de Anthropic y OpenAI
Si tienes un system prompt largo o documentos que se repiten en todas las llamadas, puedes cachearlos.
Anthropic (Claude): con cache_control en los mensajes, los tokens de prefijo solo se procesan una vez y se cachean 5 minutos. El coste del cache hit es el 10% del precio normal.
Para un system prompt de 2.000 tokens con 10.000 llamadas/día:
- Sin caching: 20M tokens/día × 3$/1M = 60$/día
- Con caching: 2.000 tokens/día × 3$/1M + 10.000 × 200 tokens × 0.3$/1M = ~0.6$/día
Ahorro: 99% en los tokens del system prompt.
4. Selección inteligente de modelos
No todas las tareas necesitan el modelo más potente. Un sistema de routing inteligente usa modelos más baratos para tareas simples.
| Tarea | Modelo | Coste relativo | |-------|--------|----------------| | Clasificación de intención | GPT-4o mini / Claude Haiku | 10-20x más barato | | Respuesta a FAQ simple | GPT-4o mini / Claude Haiku | 10-20x más barato | | Generación de contenido complejo | GPT-4o / Claude Sonnet | Precio estándar | | Análisis de documentos largos | Gemini Flash (1M contexto) | 3-5x más barato | | Razonamiento complejo | GPT-4o / Claude Opus | 3-5x más caro |
Ejemplo de routing:
Pregunta → Clasificador (Haiku, 0.001$) →
Si simple: responder con Haiku (0.003$)
Si compleja: responder con Sonnet (0.015$)
Si muy compleja: escalar a humano
Ahorro típico con routing: 40-70% del coste por llamada.
5. Batching de solicitudes
Para tareas asíncronas (no en tiempo real), puedes agrupar múltiples solicitudes y procesarlas juntas.
Anthropic Batch API: 50% de descuento sobre precios estándar para solicitudes procesadas en hasta 24 horas.
Casos de uso ideales: generación de contenido masivo, análisis de documentos, clasificación de datos históricos, evaluación de respuestas.
No aplica: aplicaciones en tiempo real donde el usuario espera respuesta inmediata.
6. Optimizar los modelos de embeddings
Si usas RAG, el coste de los embeddings puede ser significativo con gran volumen de documentos.
- text-embedding-3-small (OpenAI): 4x más barato que text-embedding-3-large con calidad comparable en la mayoría de casos
- Modelos open-source (nomic-embed, e5-large): coste de infraestructura propia, no por token
- Reusar embeddings: no regeneres embeddings de documentos que no han cambiado
7. Monitorización del gasto
No puedes optimizar lo que no mides. Instrumenta desde el principio:
- Tokens por llamada (entrada y salida, por separado)
- Coste por usuario / por conversación / por tarea
- Distribución de longitud de respuestas — si el percentil 95 es muy largo, hay oportunidad de optimización
- Tasa de cache hit — si es baja, revisa tu estrategia de caching
Herramientas: Helicone, LangSmith, o logs propios en tu DB.
Plan de acción para reducir costes
Nivel 0 (gratis, impacto inmediato):
- Auditar y comprimir system prompts
- Añadir instrucciones de brevedad
- Comprimir historial de conversación
Nivel 1 (1-2 días de implementación, impacto 30-60%):
- Activar prompt caching (si usas Claude o GPT-4)
- Implementar caching semántico para FAQs
Nivel 2 (1-2 semanas, impacto 50-80%):
- Implementar routing de modelos por complejidad
- Migrar tareas simples a modelos más baratos
Nivel 3 (proyecto, impacto variable):
- RAG para documentos extensos
- Batching de tareas asíncronas
- Evaluar modelos open-source para tareas de alto volumen
Herramientas de análisis:
- Calculadora de tokens y coste — estima tu gasto actual y proyectado
- Comparador de modelos LLM — encuentra modelos más baratos para cada tarea
- Analizador de context window — detecta ineficiencias en tu uso de contexto
- Mejores prácticas para llamadas a la API de LLM — guía técnica completa
Pon en práctica lo que has aprendido
Calculadora de tokens y coste
Estima tu gasto en API y encuentra oportunidades de ahorro.
Abrir herramienta gratuita →Artículos relacionados
Cuánto cuesta construir un agente de IA (guía de costes real)
Un desglose honesto de los costes de construir un agente de IA: desde un MVP de 2.000€ hasta sistemas enterprise. Incluye coste de modelos, infraestructura, desarrollo y mantenimiento.
Qué es la context window (ventana de contexto) en los LLMs
La context window es el límite de texto que un modelo de IA puede procesar a la vez. Entender cómo funciona y cómo optimizarla es esencial para construir sistemas de IA eficaces y económicos.
Mejores prácticas para llamadas a APIs de LLMs en producción
Timeouts, reintentos, streaming, manejo de errores, control de costos y observabilidad. Todo lo que necesitas para que tu integración con APIs de IA sea robusta.
Recibe lo mejor de Contextología
Diseño de contexto, agentes y workflows de IA directamente en tu correo.