Evals
Evaluaciones sistemáticas que miden la calidad, precisión y comportamiento de un sistema de IA. Son los tests automatizados de la ingeniería de IA.
Qué es
Evals (evaluaciones) son conjuntos de casos de prueba que miden si un sistema de IA produce los resultados esperados. Son el equivalente de los tests unitarios y de integración en el desarrollo de software tradicional.
Por qué importa
Sin evals no puedes:
- Saber si tu sistema funciona bien antes de lanzarlo
- Detectar cuándo un cambio (en el prompt, el modelo o los datos) degrada el rendimiento
- Comparar objetivamente distintas versiones del sistema
- Medir el impacto de mejoras
Lo que no se mide no se puede mejorar.
Tipos de evals
Por exactitud: la respuesta coincide con la esperada Por comportamiento: el sistema actúa de la forma esperada en situaciones específicas Por calidad: evaluación subjetiva de coherencia, claridad o utilidad LLM-as-judge: usar otro modelo como evaluador de la calidad de las respuestas
Estructura de un eval
Input: [la consulta o tarea]
Output esperado: [qué debería producir el sistema]
Criterio: [cómo determinar si la respuesta es correcta]
Cuándo ejecutar evals
- Antes de cada deploy a producción
- Cuando cambias el system prompt o cualquier parte del contexto
- Cuando cambias de modelo o ajustas parámetros
- Periódicamente en producción
Errores comunes
- Evals solo con casos fáciles (los casos difíciles y extremos son los más reveladores)
- No tener evals antes de lanzar
- Evals sin criterios claros de evaluación
- No añadir nuevos evals cuando se detectan fallos en producción
Términos relacionados
Pon en práctica lo que has aprendido
Tenemos una herramienta gratuita directamente relacionada con este concepto.
Generador de eval set →Artículo relacionado
→ Cómo evaluar un sistema de IATérminos relacionados
Guardrails
Restricciones y controles que limitan el comportamiento de un sistema de IA para hacerlo seguro, coherente y predecible dentro de un alcance definido.
LLM
Large Language Model: modelo de lenguaje de gran escala entrenado con enormes cantidades de texto para entender y generar lenguaje natural.
System Prompt
Instrucciones persistentes que se envían al modelo antes de cualquier mensaje del usuario, definiendo su rol, comportamiento, tono y límites.
Alucinación (LLM Hallucination)
Fenómeno por el que un modelo de lenguaje genera información que parece correcta pero es inventada o incorrecta. El principal riesgo de los LLMs en producción.
Recibe lo mejor de Contextología
Diseño de contexto, agentes y workflows de IA directamente en tu correo.