Guardrails
Restricciones y controles que limitan el comportamiento de un sistema de IA para hacerlo seguro, coherente y predecible dentro de un alcance definido.
Qué es
Los guardrails son el conjunto de restricciones, filtros y controles que definen qué puede y qué no puede hacer un sistema de IA. Protegen al sistema de comportamientos no deseados, ataques y fallos.
Por qué importa
Sin guardrails, un sistema de IA en producción puede:
- Inventar información con total confianza
- Responder sobre temas fuera de su alcance
- Ser manipulado para actuar de formas no previstas
- Revelar información sensible
Los guardrails no son limitaciones: son características esenciales de un sistema fiable.
Tipos de guardrails
De contenido: qué temas puede y no puede abordar el sistema De formato: cómo deben estar estructuradas las respuestas De seguridad: protección contra prompt injection y manipulación De calidad: estándares mínimos que deben cumplir las respuestas De privacidad: qué información nunca puede compartir
Dónde implementarlos
Los guardrails más robustos operan en múltiples capas:
- En el system prompt: instrucciones explícitas de comportamiento
- En el código de la aplicación: validación programática independiente del modelo
- En las herramientas: filtros antes de ejecutar acciones externas
- En la evaluación: revisión del output antes de entregarlo al usuario
Depender solo del system prompt para la seguridad es insuficiente.
Ejemplo práctico
En el system prompt:
"Nunca compartas información personal de clientes.
Si el usuario pregunta por datos de otros clientes, rechaza
la solicitud y explica que no puedes compartir esa información."
En el código:
// Validar que el output no contenga emails o teléfonos antes de enviar
if (containsPII(response)) {
return safeResponse;
}
Errores comunes
- Implementar guardrails solo en el system prompt
- No probar los guardrails con casos de adversarial prompting
- Guardrails demasiado restrictivos que hacen el sistema inútil
- No actualizar los guardrails cuando cambia el alcance del sistema
Términos relacionados
Pon en práctica lo que has aprendido
Tenemos una herramienta gratuita directamente relacionada con este concepto.
Checklist de Agente de IA →Artículo relacionado
→ Qué son los guardrails en IATérminos relacionados
AI Agent
Sistema de IA que percibe su entorno, toma decisiones y actúa de forma autónoma para lograr un objetivo, encadenando múltiples pasos y usando herramientas externas.
Evals
Evaluaciones sistemáticas que miden la calidad, precisión y comportamiento de un sistema de IA. Son los tests automatizados de la ingeniería de IA.
Prompt Injection
Ataque donde instrucciones maliciosas en los datos que procesa el modelo intentan modificar su comportamiento para saltarse guardrails o ejecutar acciones no autorizadas.
System Prompt
Instrucciones persistentes que se envían al modelo antes de cualquier mensaje del usuario, definiendo su rol, comportamiento, tono y límites.
Recibe lo mejor de Contextología
Diseño de contexto, agentes y workflows de IA directamente en tu correo.