Qué es la context window (ventana de contexto) en los LLMs

Definición simple

La context window (ventana de contexto) es la cantidad máxima de texto que un modelo de lenguaje puede "ver" y procesar en una sola llamada.

Piénsalo como la memoria de trabajo del modelo: todo lo que necesita estar presente en esa ventana para que el modelo pueda usarlo. Lo que queda fuera, el modelo no lo conoce.

Cómo se mide: tokens, no palabras

La context window se mide en tokens, no en palabras. Un token es aproximadamente 4 caracteres en inglés, o 3-4 caracteres en español.

Regla práctica:

1.000 tokens ≈ 750 palabras en español
100.000 tokens ≈ unas 75.000 palabras ≈ una novela corta

Tamaños actuales (2025)

| Modelo | Context Window | |--------|---------------| | Claude 3.5 Sonnet | 200.000 tokens | | Claude 3 Opus | 200.000 tokens | | GPT-4o | 128.000 tokens | | GPT-4 Turbo | 128.000 tokens | | Gemini 1.5 Pro | 1.000.000 tokens | | Gemini 1.5 Flash | 1.000.000 tokens | | Llama 3 (70B) | 128.000 tokens | | Mistral Large | 128.000 tokens |

Nota importante: tener una context window grande no significa que sea gratis ni que el modelo la use bien.

Qué cabe dentro de la context window

En una llamada típica, la context window contiene:

System prompt: las instrucciones del sistema (puede ocupar 1.000-5.000 tokens)
Historial de conversación: los mensajes anteriores del usuario y el asistente
Contexto inyectado: documentos, fragmentos RAG, datos recuperados
Mensaje actual del usuario: la pregunta o solicitud
Respuesta del modelo: lo que genera el modelo

El reto del Context Engineering es gestionar bien ese espacio: qué metes, en qué orden y con qué prioridad.

El problema del límite

Cuando la conversación o el contexto supera el límite de la context window, tienes que decidir qué eliminar. Si eliminamos información relevante, el modelo responde peor. Si no eliminamos nada, la llamada falla o se degrada.

Este problema se agrava en:

Conversaciones largas: el historial crece indefinidamente
Documentos extensos: PDFs, contratos, manuales de 100+ páginas
Agentes con muchos pasos: cada paso añade más contexto

La ilusión de la context window grande

Tener 1 millón de tokens no resuelve todos los problemas. Hay dos efectos conocidos que limitan el rendimiento en ventanas grandes:

Efecto "lost in the middle"

Los modelos tienden a recordar mejor la información al principio y al final de la context window. La información en el medio se "pierde" con más frecuencia. Si metes 500 páginas de documentación, el modelo puede ignorar lo que está en las páginas 150-350.

Coste proporcional al contexto

Cada token que entra a la ventana de contexto tiene un coste. Usar 200.000 tokens cuando solo necesitas 5.000 es 40 veces más caro. Para sistemas de producción con miles de llamadas al día, esto importa mucho.

Latencia aumentada

Más tokens = más tiempo de procesamiento. Para aplicaciones en tiempo real, esto puede ser determinante.

Estrategias para gestionar la context window

1. Comprimir el historial

En conversaciones largas, en lugar de mantener todos los mensajes, genera un resumen periódico: "Resumen de los últimos 10 mensajes: el usuario preguntó sobre X, acordamos Y...". Ese resumen ocupa 200 tokens en vez de los 4.000 del historial completo.

2. RAG en lugar de contexto completo

En lugar de meter todo el documento en el contexto, usa RAG para recuperar solo los fragmentos relevantes. 5 fragmentos de 500 tokens cada uno (2.500 tokens) vs. el documento entero de 50.000 tokens.

3. Priorización estratégica

El sistema prompt va primero (el modelo lo prioriza más). La información más relevante va justo antes de la pregunta (efecto recency). El historial de conversación puede comprimirse o truncarse.

4. Múltiples llamadas en lugar de una

Para documentos muy largos, mejor procesarlos en chunks separados y combinar los resultados que meterlos todos a la vez. Una llamada bien diseñada supera a una llamada enorme.

Cómo calcular si tu contexto cabe

Antes de lanzar un sistema a producción, estima el contexto típico:

System prompt: ¿cuántos tokens?
Historial máximo esperado: si el usuario escribe 10 mensajes de 100 palabras cada uno = ~1.500 tokens
Documentos RAG: si recuperas 5 fragmentos de 512 tokens = 2.560 tokens
Respuesta esperada: 500-1.000 tokens de output

Suma todo + margen del 20%. Ese es tu requisito de context window.

Context window y coste

El coste de las APIs de LLM se calcula por tokens: tokens de entrada + tokens de salida.

Optimizar la context window no es solo una cuestión de rendimiento. Es una cuestión económica. Un sistema que usa 10.000 tokens por llamada cuesta 20 veces menos que uno que usa 200.000 tokens por llamada.

Para estimar el coste de tu sistema, usa la Calculadora de tokens y coste.

Preguntas frecuentes

¿Qué pasa si supero el límite de la context window? La API devuelve un error. Tu código debe gestionar esto: comprimir el historial, eliminar contexto antiguo o usar RAG para reducir el tamaño.

¿Todos los modelos recuerdan igual de bien con ventanas grandes? No. Algunos modelos degradan significativamente en ventanas largas. Claude y Gemini tienen mejor rendimiento en ventanas grandes que GPT-4 según benchmarks de "needle in a haystack" (encontrar información específica en un texto muy largo).

¿Es mejor tener la context window más grande posible? No necesariamente. Una context window bien diseñada con información relevante supera a una context window enorme con información mediocre. Más grande no es siempre mejor.

¿La context window afecta al fine-tuning? No directamente. El fine-tuning cambia los pesos del modelo. La context window es el límite en inferencia (cuando usas el modelo). Son dos cosas distintas.

Recursos relacionados

Usa el Analizador de context window para optimizar el uso de tu ventana de contexto
Lee sobre Context Engineering — la disciplina de diseñar bien qué va en el contexto
Aprende cómo funciona RAG para reducir el uso de contexto en sistemas documentales