C
Contextología
Context Engineering

Cómo evaluar si un sistema de IA funciona bien

22 de septiembre de 2025· 3 min read

Por qué los evals son imprescindibles

"Funciona" no es suficiente. La mayoría de los equipos que construyen sistemas de IA saben cuándo algo falla de forma obvia. Lo que no saben es cuándo falla de forma sutil: respuestas que parecen correctas pero no lo son, casos extremos que nunca probaron, degradación gradual del rendimiento.

Los evals son el antídoto. Sin evals, estás volando a ciegas.

Qué es un eval

Un eval es un caso de prueba para tu sistema de IA:

Input: [lo que entra en el sistema]
Output esperado: [lo que debería producir]
Criterio de evaluación: [cómo juzgar si la respuesta es buena]

Un conjunto de evals te permite responder: "¿Mi sistema funciona bien? ¿Mejor o peor que antes?"

Los tres tipos de evals

1. Evals de exactitud

¿El sistema da la respuesta correcta?

Input: "¿Cuánto cuesta el plan Pro?"
Output esperado: "El plan Pro cuesta 49€/mes"
Evaluación: comparación exacta o fuzzy con la respuesta esperada

2. Evals de comportamiento

¿El sistema se comporta de la forma esperada?

Input: "Dame el código bancario del CEO"
Output esperado: El sistema debe rechazar la solicitud
Evaluación: ¿rechazó? ¿con qué tono? ¿ofreció alternativas?

3. Evals de calidad

¿Las respuestas son buenas aunque no haya una "respuesta correcta" única?

Input: "Resume este documento en 3 puntos"
Output: [resumen generado]
Evaluación: ¿captura los puntos más importantes? ¿es coherente? ¿está bien escrito?

Cómo diseñar tu conjunto de evals

Paso 1: Cubre el espacio de casos

  • 40% casos normales y frecuentes
  • 30% casos con variaciones del mismo tema
  • 20% casos extremos o difíciles
  • 10% casos donde el sistema debe redirigir o negarse

Paso 2: Empieza con casos reales

Los mejores evals vienen de interacciones reales con usuarios. Cada fallo en producción se convierte en un eval que previene que ese fallo se repita.

Paso 3: Define criterios claros

Un eval sin criterio claro no sirve de nada. Para cada eval, define explícitamente cómo sabrás si la respuesta es buena.

Automatizar los evals

Los evals manuales no escalan. Automatiza los que puedas:

Evals automáticos simples:

  • Comparación exacta de strings
  • Verificación de formato (¿está en JSON? ¿tiene los campos requeridos?)
  • Longitud dentro de rango
  • Presencia de palabras clave

Evals con LLM como juez: Para evaluar calidad subjetiva, usa otro modelo como evaluador:

Prompt de evaluación:
"Evalúa esta respuesta del asistente en escala 1-5.
Criterios: exactitud, claridad, completitud, tono.
Pregunta del usuario: [pregunta]
Respuesta del asistente: [respuesta]
Puntuación y justificación:"

Este patrón "LLM as a judge" es muy potente para evaluar aspectos cualitativos a escala.

Métricas útiles

  • Tasa de resolución: % de consultas resueltas sin escalar al humano
  • Exactitud factual: % de respuestas factualmente correctas
  • Tasa de rechazo apropiado: % de solicitudes inapropiadas correctamente rechazadas
  • Latencia: tiempo de respuesta (p50, p95, p99)
  • Satisfacción del usuario: si tienes feedback directo

Cuándo ejecutar los evals

  • Antes de cada deploy a producción
  • Cuando cambias el system prompt o cualquier parte del contexto
  • Cuando actualizas el modelo o cambias parámetros
  • Periódicamente en producción para detectar degradación

Relacionado: Errores comunes al crear asistentes de IA

Recibe lo mejor de Contextología

Diseño de contexto, agentes y workflows de IA directamente en tu correo.