Alucinación (LLM Hallucination)
Fenómeno por el que un modelo de lenguaje genera información que parece correcta pero es inventada o incorrecta. El principal riesgo de los LLMs en producción.
Qué es la alucinación en LLMs
La alucinación es cuando un modelo de lenguaje genera información que suena plausible y confiada pero es factualmente incorrecta, inventada o no tiene base en los datos de entrada.
El nombre viene de la psicología: el modelo "percibe" información que no existe en la realidad.
Por qué ocurre
Los LLMs no "saben" cosas en el sentido humano: generan el siguiente token más probable dado el contexto. Cuando no tienen información suficiente en su entrenamiento o en el contexto, pueden generar texto que parece correcto pero no lo es.
Las alucinaciones son más frecuentes cuando:
- Se pregunta sobre hechos muy específicos (fechas, nombres, estadísticas)
- La información requerida no está en el contexto dado
- El modelo es presionado para responder aunque no sepa
- La temperatura es alta
Tipos de alucinación
Alucinación factual: Afirmaciones incorrectas sobre hechos del mundo. "La Torre Eiffel fue construida en 1850" (fue en 1889).
Alucinación de contexto: El modelo cita o parafrasea incorrectamente algo del documento que se le dio.
Alucinación de identidad: El modelo atribuye incorrectamente citas, inventos o hechos a personas equivocadas.
Alucinación de código: Generar código que usa APIs o funciones que no existen.
Cómo reducirlas
RAG con grounding: Proporcionar al modelo los documentos con la información correcta y pedir que solo use esos documentos.
Instrucciones explícitas: "Si no sabes la respuesta, di que no sabes. No inventes."
Temperatura baja: Reduce la aleatoriedad en tareas que requieren precisión.
Faithfulness check: Un segundo LLM verifica que la respuesta está soportada por el contexto.
Evals específicos: Probar sistemáticamente casos donde la alucinación es más probable.
Lo que NO la elimina
No existe una técnica que elimine completamente las alucinaciones. Los modelos más potentes alucin an menos pero no dejan de hacerlo. Todo sistema de IA en producción debe asumi que habrá alucinaciones y diseñar defensas en consecuencia.
Términos relacionados
- [[rag]] — Principal técnica para reducir alucinaciones con conocimiento externo
- [[evals]] — Para detectar y medir la tasa de alucinaciones
- [[guardrails]] — Capa de validación que puede detectar respuestas problemáticas
- [[system-prompt]] — Puede incluir instrucciones para reducir alucinaciones
Pon en práctica lo que has aprendido
Tenemos una herramienta gratuita directamente relacionada con este concepto.
Evaluador de system prompts →Artículo relacionado
→ Errores comunes en asistentes de IATérminos relacionados
Evals
Evaluaciones sistemáticas que miden la calidad, precisión y comportamiento de un sistema de IA. Son los tests automatizados de la ingeniería de IA.
Guardrails
Restricciones y controles que limitan el comportamiento de un sistema de IA para hacerlo seguro, coherente y predecible dentro de un alcance definido.
Prompt Injection
Ataque donde instrucciones maliciosas en los datos que procesa el modelo intentan modificar su comportamiento para saltarse guardrails o ejecutar acciones no autorizadas.
RAG
Retrieval-Augmented Generation: técnica que combina búsqueda de información en una base de conocimiento con generación de texto para producir respuestas precisas y verificables.
Recibe lo mejor de Contextología
Diseño de contexto, agentes y workflows de IA directamente en tu correo.