C
Contextología
Glosario

LLM Routing

Técnica para dirigir cada consulta al modelo de IA más adecuado según su complejidad, reduciendo costos sin sacrificar calidad.

Qué es LLM Routing

LLM Routing es la práctica de clasificar cada consulta entrante y enviarla al modelo de lenguaje más apropiado según criterios como complejidad, tipo de tarea, latencia requerida o costo.

En lugar de usar siempre el mismo modelo para todo, el sistema tiene una capa de decisión que elige dinámicamente entre varios modelos disponibles.

Por qué importa

Los modelos potentes (GPT-4o, Claude Opus) cuestan 10-50x más que los modelos pequeños (GPT-4o mini, Haiku). Sin embargo, las consultas simples no necesitan esa potencia.

Con routing, puedes:

  • Reducir costos un 50-70% en sistemas de alto volumen
  • Mantener la calidad donde realmente importa
  • Optimizar latencia enviando consultas simples a modelos más rápidos

Cómo se usa

El sistema de routing puede basarse en:

Reglas fijas: Si la consulta tiene menos de 50 palabras y no contiene palabras de razonamiento complejo → modelo barato.

Clasificador ligero: Un modelo pequeño evalúa la dificultad de la consulta antes de enrutarla.

Cascading: Intenta con el modelo barato; si la confianza es baja, reintenta con el potente.

Ejemplo

Consulta: "¿Cuál es la capital de España?"
→ Modelo barato (respuesta obvia)

Consulta: "Analiza los pros y contras de estas 5 arquitecturas de sistemas distribuidos"
→ Modelo potente (razonamiento complejo)

Errores comunes

Over-routing al modelo caro: El clasificador es demasiado conservador y manda todo al modelo potente. El ahorro es mínimo.

Under-routing: El clasificador manda casos difíciles al modelo barato y la calidad sufre donde más importa.

No medir el impacto: Implementar routing sin medir la calidad antes y después. Si el routing empeora respuestas, no vale la pena.

Términos relacionados

  • [[llm]] — Los modelos que el routing selecciona
  • [[evals]] — Necesarios para medir si el routing funciona correctamente
  • [[tokens]] — El costo que el routing intenta optimizar

Pon en práctica lo que has aprendido

Tenemos una herramienta gratuita directamente relacionada con este concepto.

Selector de modelo IA

Artículo relacionado

Qué es un agente de IA

Recibe lo mejor de Contextología

Diseño de contexto, agentes y workflows de IA directamente en tu correo.