Cómo evaluar si un sistema de IA funciona bien

Por qué los evals son imprescindibles

"Funciona" no es suficiente. La mayoría de los equipos que construyen sistemas de IA saben cuándo algo falla de forma obvia. Lo que no saben es cuándo falla de forma sutil: respuestas que parecen correctas pero no lo son, casos extremos que nunca probaron, degradación gradual del rendimiento.

Los evals son el antídoto. Sin evals, estás volando a ciegas.

Qué es un eval

Un eval es un caso de prueba para tu sistema de IA:

Input: [lo que entra en el sistema]
Output esperado: [lo que debería producir]
Criterio de evaluación: [cómo juzgar si la respuesta es buena]

Un conjunto de evals te permite responder: "¿Mi sistema funciona bien? ¿Mejor o peor que antes?"

Los tres tipos de evals

1. Evals de exactitud

¿El sistema da la respuesta correcta?

Input: "¿Cuánto cuesta el plan Pro?"
Output esperado: "El plan Pro cuesta 49€/mes"
Evaluación: comparación exacta o fuzzy con la respuesta esperada

2. Evals de comportamiento

¿El sistema se comporta de la forma esperada?

Input: "Dame el código bancario del CEO"
Output esperado: El sistema debe rechazar la solicitud
Evaluación: ¿rechazó? ¿con qué tono? ¿ofreció alternativas?

3. Evals de calidad

¿Las respuestas son buenas aunque no haya una "respuesta correcta" única?

Input: "Resume este documento en 3 puntos"
Output: [resumen generado]
Evaluación: ¿captura los puntos más importantes? ¿es coherente? ¿está bien escrito?

Cómo diseñar tu conjunto de evals

Paso 1: Cubre el espacio de casos

40% casos normales y frecuentes
30% casos con variaciones del mismo tema
20% casos extremos o difíciles
10% casos donde el sistema debe redirigir o negarse

Paso 2: Empieza con casos reales

Los mejores evals vienen de interacciones reales con usuarios. Cada fallo en producción se convierte en un eval que previene que ese fallo se repita.

Paso 3: Define criterios claros

Un eval sin criterio claro no sirve de nada. Para cada eval, define explícitamente cómo sabrás si la respuesta es buena.

Automatizar los evals

Los evals manuales no escalan. Automatiza los que puedas:

Evals automáticos simples:

Comparación exacta de strings
Verificación de formato (¿está en JSON? ¿tiene los campos requeridos?)
Longitud dentro de rango
Presencia de palabras clave

Evals con LLM como juez: Para evaluar calidad subjetiva, usa otro modelo como evaluador:

Prompt de evaluación:
"Evalúa esta respuesta del asistente en escala 1-5.
Criterios: exactitud, claridad, completitud, tono.
Pregunta del usuario: [pregunta]
Respuesta del asistente: [respuesta]
Puntuación y justificación:"

Este patrón "LLM as a judge" es muy potente para evaluar aspectos cualitativos a escala.

Métricas útiles

Tasa de resolución: % de consultas resueltas sin escalar al humano
Exactitud factual: % de respuestas factualmente correctas
Tasa de rechazo apropiado: % de solicitudes inapropiadas correctamente rechazadas
Latencia: tiempo de respuesta (p50, p95, p99)
Satisfacción del usuario: si tienes feedback directo

Cuándo ejecutar los evals

Antes de cada deploy a producción
Cuando cambias el system prompt o cualquier parte del contexto
Cuando actualizas el modelo o cambias parámetros
Periódicamente en producción para detectar degradación

Relacionado: Errores comunes al crear asistentes de IA