Qué es la context window (ventana de contexto) en los LLMs
10 de junio de 2025· 5 min read
Definición simple
La context window (ventana de contexto) es la cantidad máxima de texto que un modelo de lenguaje puede "ver" y procesar en una sola llamada.
Piénsalo como la memoria de trabajo del modelo: todo lo que necesita estar presente en esa ventana para que el modelo pueda usarlo. Lo que queda fuera, el modelo no lo conoce.
Cómo se mide: tokens, no palabras
La context window se mide en tokens, no en palabras. Un token es aproximadamente 4 caracteres en inglés, o 3-4 caracteres en español.
Regla práctica:
- 1.000 tokens ≈ 750 palabras en español
- 100.000 tokens ≈ unas 75.000 palabras ≈ una novela corta
Tamaños actuales (2025)
| Modelo | Context Window | |--------|---------------| | Claude 3.5 Sonnet | 200.000 tokens | | Claude 3 Opus | 200.000 tokens | | GPT-4o | 128.000 tokens | | GPT-4 Turbo | 128.000 tokens | | Gemini 1.5 Pro | 1.000.000 tokens | | Gemini 1.5 Flash | 1.000.000 tokens | | Llama 3 (70B) | 128.000 tokens | | Mistral Large | 128.000 tokens |
Nota importante: tener una context window grande no significa que sea gratis ni que el modelo la use bien.
Qué cabe dentro de la context window
En una llamada típica, la context window contiene:
- System prompt: las instrucciones del sistema (puede ocupar 1.000-5.000 tokens)
- Historial de conversación: los mensajes anteriores del usuario y el asistente
- Contexto inyectado: documentos, fragmentos RAG, datos recuperados
- Mensaje actual del usuario: la pregunta o solicitud
- Respuesta del modelo: lo que genera el modelo
El reto del Context Engineering es gestionar bien ese espacio: qué metes, en qué orden y con qué prioridad.
El problema del límite
Cuando la conversación o el contexto supera el límite de la context window, tienes que decidir qué eliminar. Si eliminamos información relevante, el modelo responde peor. Si no eliminamos nada, la llamada falla o se degrada.
Este problema se agrava en:
- Conversaciones largas: el historial crece indefinidamente
- Documentos extensos: PDFs, contratos, manuales de 100+ páginas
- Agentes con muchos pasos: cada paso añade más contexto
La ilusión de la context window grande
Tener 1 millón de tokens no resuelve todos los problemas. Hay dos efectos conocidos que limitan el rendimiento en ventanas grandes:
Efecto "lost in the middle"
Los modelos tienden a recordar mejor la información al principio y al final de la context window. La información en el medio se "pierde" con más frecuencia. Si metes 500 páginas de documentación, el modelo puede ignorar lo que está en las páginas 150-350.
Coste proporcional al contexto
Cada token que entra a la ventana de contexto tiene un coste. Usar 200.000 tokens cuando solo necesitas 5.000 es 40 veces más caro. Para sistemas de producción con miles de llamadas al día, esto importa mucho.
Latencia aumentada
Más tokens = más tiempo de procesamiento. Para aplicaciones en tiempo real, esto puede ser determinante.
Estrategias para gestionar la context window
1. Comprimir el historial
En conversaciones largas, en lugar de mantener todos los mensajes, genera un resumen periódico: "Resumen de los últimos 10 mensajes: el usuario preguntó sobre X, acordamos Y...". Ese resumen ocupa 200 tokens en vez de los 4.000 del historial completo.
2. RAG en lugar de contexto completo
En lugar de meter todo el documento en el contexto, usa RAG para recuperar solo los fragmentos relevantes. 5 fragmentos de 500 tokens cada uno (2.500 tokens) vs. el documento entero de 50.000 tokens.
3. Priorización estratégica
El sistema prompt va primero (el modelo lo prioriza más). La información más relevante va justo antes de la pregunta (efecto recency). El historial de conversación puede comprimirse o truncarse.
4. Múltiples llamadas en lugar de una
Para documentos muy largos, mejor procesarlos en chunks separados y combinar los resultados que meterlos todos a la vez. Una llamada bien diseñada supera a una llamada enorme.
Cómo calcular si tu contexto cabe
Antes de lanzar un sistema a producción, estima el contexto típico:
- System prompt: ¿cuántos tokens?
- Historial máximo esperado: si el usuario escribe 10 mensajes de 100 palabras cada uno = ~1.500 tokens
- Documentos RAG: si recuperas 5 fragmentos de 512 tokens = 2.560 tokens
- Respuesta esperada: 500-1.000 tokens de output
Suma todo + margen del 20%. Ese es tu requisito de context window.
Context window y coste
El coste de las APIs de LLM se calcula por tokens: tokens de entrada + tokens de salida.
Optimizar la context window no es solo una cuestión de rendimiento. Es una cuestión económica. Un sistema que usa 10.000 tokens por llamada cuesta 20 veces menos que uno que usa 200.000 tokens por llamada.
Para estimar el coste de tu sistema, usa la Calculadora de tokens y coste.
Preguntas frecuentes
¿Qué pasa si supero el límite de la context window? La API devuelve un error. Tu código debe gestionar esto: comprimir el historial, eliminar contexto antiguo o usar RAG para reducir el tamaño.
¿Todos los modelos recuerdan igual de bien con ventanas grandes? No. Algunos modelos degradan significativamente en ventanas largas. Claude y Gemini tienen mejor rendimiento en ventanas grandes que GPT-4 según benchmarks de "needle in a haystack" (encontrar información específica en un texto muy largo).
¿Es mejor tener la context window más grande posible? No necesariamente. Una context window bien diseñada con información relevante supera a una context window enorme con información mediocre. Más grande no es siempre mejor.
¿La context window afecta al fine-tuning? No directamente. El fine-tuning cambia los pesos del modelo. La context window es el límite en inferencia (cuando usas el modelo). Son dos cosas distintas.
Recursos relacionados
- Usa el Analizador de context window para optimizar el uso de tu ventana de contexto
- Lee sobre Context Engineering — la disciplina de diseñar bien qué va en el contexto
- Aprende cómo funciona RAG para reducir el uso de contexto en sistemas documentales
Pon en práctica lo que has aprendido
Analizador de Context Window
Visualiza y optimiza el uso de tu ventana de contexto.
Abrir herramienta gratuita →Artículos relacionados
Qué son los embeddings
Los embeddings son representaciones numéricas del significado del texto. Son la base de RAG, búsqueda semántica y muchos sistemas de IA. Aquí los explicamos sin matemáticas.
Qué es RAG explicado de forma simple
RAG (Retrieval-Augmented Generation) permite a los modelos de IA responder con información actualizada y verificable. Aquí lo explicamos paso a paso, sin jerga innecesaria.
Qué es Context Engineering y por qué reemplaza al Prompt Engineering
Context Engineering es la nueva disciplina que va más allá de los prompts: diseña todo el sistema de información que recibe una IA. Aprende qué es, por qué importa y cómo aplicarlo.
Recibe lo mejor de Contextología
Diseño de contexto, agentes y workflows de IA directamente en tu correo.