Evals

Evaluaciones sistemáticas que miden la calidad, precisión y comportamiento de un sistema de IA. Son los tests automatizados de la ingeniería de IA.

Qué es

Evals (evaluaciones) son conjuntos de casos de prueba que miden si un sistema de IA produce los resultados esperados. Son el equivalente de los tests unitarios y de integración en el desarrollo de software tradicional.

Por qué importa

Sin evals no puedes:

Saber si tu sistema funciona bien antes de lanzarlo
Detectar cuándo un cambio (en el prompt, el modelo o los datos) degrada el rendimiento
Comparar objetivamente distintas versiones del sistema
Medir el impacto de mejoras

Lo que no se mide no se puede mejorar.

Tipos de evals

Por exactitud: la respuesta coincide con la esperada Por comportamiento: el sistema actúa de la forma esperada en situaciones específicas Por calidad: evaluación subjetiva de coherencia, claridad o utilidad LLM-as-judge: usar otro modelo como evaluador de la calidad de las respuestas

Estructura de un eval

Input: [la consulta o tarea]
Output esperado: [qué debería producir el sistema]
Criterio: [cómo determinar si la respuesta es correcta]

Cuándo ejecutar evals

Antes de cada deploy a producción
Cuando cambias el system prompt o cualquier parte del contexto
Cuando cambias de modelo o ajustas parámetros
Periódicamente en producción

Errores comunes

Evals solo con casos fáciles (los casos difíciles y extremos son los más reveladores)
No tener evals antes de lanzar
Evals sin criterios claros de evaluación
No añadir nuevos evals cuando se detectan fallos en producción