C
Contextología
Glosario

Evals

Evaluaciones sistemáticas que miden la calidad, precisión y comportamiento de un sistema de IA. Son los tests automatizados de la ingeniería de IA.

Qué es

Evals (evaluaciones) son conjuntos de casos de prueba que miden si un sistema de IA produce los resultados esperados. Son el equivalente de los tests unitarios y de integración en el desarrollo de software tradicional.

Por qué importa

Sin evals no puedes:

  • Saber si tu sistema funciona bien antes de lanzarlo
  • Detectar cuándo un cambio (en el prompt, el modelo o los datos) degrada el rendimiento
  • Comparar objetivamente distintas versiones del sistema
  • Medir el impacto de mejoras

Lo que no se mide no se puede mejorar.

Tipos de evals

Por exactitud: la respuesta coincide con la esperada Por comportamiento: el sistema actúa de la forma esperada en situaciones específicas Por calidad: evaluación subjetiva de coherencia, claridad o utilidad LLM-as-judge: usar otro modelo como evaluador de la calidad de las respuestas

Estructura de un eval

Input: [la consulta o tarea]
Output esperado: [qué debería producir el sistema]
Criterio: [cómo determinar si la respuesta es correcta]

Cuándo ejecutar evals

  • Antes de cada deploy a producción
  • Cuando cambias el system prompt o cualquier parte del contexto
  • Cuando cambias de modelo o ajustas parámetros
  • Periódicamente en producción

Errores comunes

  • Evals solo con casos fáciles (los casos difíciles y extremos son los más reveladores)
  • No tener evals antes de lanzar
  • Evals sin criterios claros de evaluación
  • No añadir nuevos evals cuando se detectan fallos en producción

Términos relacionados

Pon en práctica lo que has aprendido

Tenemos una herramienta gratuita directamente relacionada con este concepto.

Generador de eval set

Recibe lo mejor de Contextología

Diseño de contexto, agentes y workflows de IA directamente en tu correo.