Cómo reducir el coste de las llamadas a la API de LLMs

Cuando un sistema de IA empieza a escalar, el coste de las APIs de LLM puede sorprender. Un sistema que costaba 50€/mes con 1.000 usuarios puede costar 5.000€/mes con 100.000 usuarios si no se optimiza.

Esta guía recoge las técnicas que más reducen el coste en la práctica, con ejemplos concretos.

Por qué sube el coste

El coste de una API de LLM se calcula así:

Coste = (tokens_entrada × precio_entrada) + (tokens_salida × precio_salida)

Los tokens de salida suelen ser 3-5 veces más caros que los de entrada. En GPT-4o, por ejemplo: 5$/1M tokens entrada vs 15$/1M tokens salida.

El coste escala linealmente con el volumen, pero puede reducirse sustancialmente con las técnicas correctas.

1. Reducir tokens de entrada

Esta es la palanca más poderosa. Un contexto más corto = menos coste por llamada.

Comprimir el system prompt

Muchos system prompts tienen repeticiones, ejemplos innecesarios y texto redundante. Audítalos con regularidad.

Antes:

"Eres un asistente de soporte al cliente de la empresa Acme Corp. Tu función es ayudar a los clientes con sus preguntas y dudas sobre los productos y servicios de Acme Corp. Debes responder siempre de forma amable, profesional y útil. Si no sabes la respuesta, debes decírselo al cliente de forma honesta. Recuerda que representas a Acme Corp y debes mantener siempre una imagen profesional..."

Después:

"Asistente de soporte de Acme Corp. Responde de forma amable y precisa. Si no sabes algo, dilo honestamente. Escala al equipo si: el cliente está frustrado tras 2 turnos sin solución / hay pérdida de datos / requiere acción en cuenta."

El segundo tiene la misma información funcional pero ocupa la mitad de tokens.

Comprimir el historial de conversación

En conversaciones largas, no necesitas mantener todos los mensajes. Dos estrategias:

Ventana deslizante: mantén solo los últimos N mensajes (ej: últimos 5 pares).

Resumen periódico: cada 10 mensajes, genera un resumen y descarta el historial original.

[Resumen de los últimos 10 mensajes]
El usuario preguntó sobre el retraso en su pedido #12345.
Se confirmó que el pedido está en tránsito desde el 15/05 y llegará el 22/05.
El usuario expresó preocupación por el plazo. Se le ofreció seguimiento prioritario.

Este resumen ocupa 60 tokens vs los 800 tokens del historial completo.

RAG en lugar de contexto completo

En lugar de poner 50 páginas de documentación en el contexto, usa RAG para recuperar solo los 3-5 fragmentos más relevantes para cada pregunta. El coste puede reducirse un 80-90%.

2. Reducir tokens de salida

Los tokens de salida son los más caros. Varias formas de reducirlos:

Instrucciones de brevedad en el system prompt

"Respuestas máximo 150 palabras. Usa bullet points cuando haya más de 2 puntos. Sin introducción ni conclusión redundante."

Estructurar la salida con JSON

Si necesitas datos estructurados, usar JSON hace que el modelo sea más directo y predecible. Menos palabras de relleno, más señal.

Dividir tareas en pasos

En lugar de pedir al modelo que razone extensamente en una respuesta larga, divide la tarea:

Paso 1: clasificar (respuesta corta)
Paso 2: si es categoría X, procesar con prompt específico (respuesta controlada)

Dos llamadas pequeñas pueden costar menos que una respuesta larga.

3. Caching de respuestas

Caching semántico

Para preguntas frecuentes, en lugar de hacer una llamada al LLM, devuelves una respuesta cacheada de una pregunta similar anterior.

Herramientas: GPTCache, Semantic Cache de Redis.

Funciona bien cuando: hay muchas preguntas repetidas o muy similares (FAQs, soporte técnico estándar).

Ahorro típico: 30-60% en sistemas con preguntas frecuentes.

Prompt caching de Anthropic y OpenAI

Si tienes un system prompt largo o documentos que se repiten en todas las llamadas, puedes cachearlos.

Anthropic (Claude): con cache_control en los mensajes, los tokens de prefijo solo se procesan una vez y se cachean 5 minutos. El coste del cache hit es el 10% del precio normal.

Para un system prompt de 2.000 tokens con 10.000 llamadas/día:

Sin caching: 20M tokens/día × 3$/1M = 60$/día
Con caching: 2.000 tokens/día × 3$/1M + 10.000 × 200 tokens × 0.3$/1M = ~0.6$/día

Ahorro: 99% en los tokens del system prompt.

4. Selección inteligente de modelos

No todas las tareas necesitan el modelo más potente. Un sistema de routing inteligente usa modelos más baratos para tareas simples.

| Tarea | Modelo | Coste relativo | |-------|--------|----------------| | Clasificación de intención | GPT-4o mini / Claude Haiku | 10-20x más barato | | Respuesta a FAQ simple | GPT-4o mini / Claude Haiku | 10-20x más barato | | Generación de contenido complejo | GPT-4o / Claude Sonnet | Precio estándar | | Análisis de documentos largos | Gemini Flash (1M contexto) | 3-5x más barato | | Razonamiento complejo | GPT-4o / Claude Opus | 3-5x más caro |

Ejemplo de routing:

Pregunta → Clasificador (Haiku, 0.001$) →
  Si simple: responder con Haiku (0.003$)
  Si compleja: responder con Sonnet (0.015$)
  Si muy compleja: escalar a humano

Ahorro típico con routing: 40-70% del coste por llamada.

5. Batching de solicitudes

Para tareas asíncronas (no en tiempo real), puedes agrupar múltiples solicitudes y procesarlas juntas.

Anthropic Batch API: 50% de descuento sobre precios estándar para solicitudes procesadas en hasta 24 horas.

Casos de uso ideales: generación de contenido masivo, análisis de documentos, clasificación de datos históricos, evaluación de respuestas.

No aplica: aplicaciones en tiempo real donde el usuario espera respuesta inmediata.

6. Optimizar los modelos de embeddings

Si usas RAG, el coste de los embeddings puede ser significativo con gran volumen de documentos.

text-embedding-3-small (OpenAI): 4x más barato que text-embedding-3-large con calidad comparable en la mayoría de casos
Modelos open-source (nomic-embed, e5-large): coste de infraestructura propia, no por token
Reusar embeddings: no regeneres embeddings de documentos que no han cambiado

7. Monitorización del gasto

No puedes optimizar lo que no mides. Instrumenta desde el principio:

Tokens por llamada (entrada y salida, por separado)
Coste por usuario / por conversación / por tarea
Distribución de longitud de respuestas — si el percentil 95 es muy largo, hay oportunidad de optimización
Tasa de cache hit — si es baja, revisa tu estrategia de caching

Herramientas: Helicone, LangSmith, o logs propios en tu DB.

Plan de acción para reducir costes

Nivel 0 (gratis, impacto inmediato):

Auditar y comprimir system prompts
Añadir instrucciones de brevedad
Comprimir historial de conversación

Nivel 1 (1-2 días de implementación, impacto 30-60%):

Activar prompt caching (si usas Claude o GPT-4)
Implementar caching semántico para FAQs

Nivel 2 (1-2 semanas, impacto 50-80%):

Implementar routing de modelos por complejidad
Migrar tareas simples a modelos más baratos

Nivel 3 (proyecto, impacto variable):

RAG para documentos extensos
Batching de tareas asíncronas
Evaluar modelos open-source para tareas de alto volumen

Herramientas de análisis:

Calculadora de tokens y coste — estima tu gasto actual y proyectado
Comparador de modelos LLM — encuentra modelos más baratos para cada tarea
Analizador de context window — detecta ineficiencias en tu uso de contexto
Mejores prácticas para llamadas a la API de LLM — guía técnica completa