Guardrails

Restricciones y controles que limitan el comportamiento de un sistema de IA para hacerlo seguro, coherente y predecible dentro de un alcance definido.

Qué es

Los guardrails son el conjunto de restricciones, filtros y controles que definen qué puede y qué no puede hacer un sistema de IA. Protegen al sistema de comportamientos no deseados, ataques y fallos.

Por qué importa

Sin guardrails, un sistema de IA en producción puede:

Inventar información con total confianza
Responder sobre temas fuera de su alcance
Ser manipulado para actuar de formas no previstas
Revelar información sensible

Los guardrails no son limitaciones: son características esenciales de un sistema fiable.

Tipos de guardrails

De contenido: qué temas puede y no puede abordar el sistema De formato: cómo deben estar estructuradas las respuestas De seguridad: protección contra prompt injection y manipulación De calidad: estándares mínimos que deben cumplir las respuestas De privacidad: qué información nunca puede compartir

Dónde implementarlos

Los guardrails más robustos operan en múltiples capas:

En el system prompt: instrucciones explícitas de comportamiento
En el código de la aplicación: validación programática independiente del modelo
En las herramientas: filtros antes de ejecutar acciones externas
En la evaluación: revisión del output antes de entregarlo al usuario

Depender solo del system prompt para la seguridad es insuficiente.

Ejemplo práctico

En el system prompt:
"Nunca compartas información personal de clientes.
Si el usuario pregunta por datos de otros clientes, rechaza
la solicitud y explica que no puedes compartir esa información."

En el código:
// Validar que el output no contenga emails o teléfonos antes de enviar
if (containsPII(response)) {
  return safeResponse;
}

Errores comunes

Implementar guardrails solo en el system prompt
No probar los guardrails con casos de adversarial prompting
Guardrails demasiado restrictivos que hacen el sistema inútil
No actualizar los guardrails cuando cambia el alcance del sistema