Glosario

Alucinación (LLM Hallucination)

Fenómeno por el que un modelo de lenguaje genera información que parece correcta pero es inventada o incorrecta. El principal riesgo de los LLMs en producción.

Qué es la alucinación en LLMs

La alucinación es cuando un modelo de lenguaje genera información que suena plausible y confiada pero es factualmente incorrecta, inventada o no tiene base en los datos de entrada.

El nombre viene de la psicología: el modelo "percibe" información que no existe en la realidad.

Por qué ocurre

Los LLMs no "saben" cosas en el sentido humano: generan el siguiente token más probable dado el contexto. Cuando no tienen información suficiente en su entrenamiento o en el contexto, pueden generar texto que parece correcto pero no lo es.

Las alucinaciones son más frecuentes cuando:

Se pregunta sobre hechos muy específicos (fechas, nombres, estadísticas)
La información requerida no está en el contexto dado
El modelo es presionado para responder aunque no sepa
La temperatura es alta

Tipos de alucinación

Alucinación factual: Afirmaciones incorrectas sobre hechos del mundo. "La Torre Eiffel fue construida en 1850" (fue en 1889).

Alucinación de contexto: El modelo cita o parafrasea incorrectamente algo del documento que se le dio.

Alucinación de identidad: El modelo atribuye incorrectamente citas, inventos o hechos a personas equivocadas.

Alucinación de código: Generar código que usa APIs o funciones que no existen.

Cómo reducirlas

RAG con grounding: Proporcionar al modelo los documentos con la información correcta y pedir que solo use esos documentos.

Instrucciones explícitas: "Si no sabes la respuesta, di que no sabes. No inventes."

Temperatura baja: Reduce la aleatoriedad en tareas que requieren precisión.

Faithfulness check: Un segundo LLM verifica que la respuesta está soportada por el contexto.

Evals específicos: Probar sistemáticamente casos donde la alucinación es más probable.

Lo que NO la elimina

No existe una técnica que elimine completamente las alucinaciones. Los modelos más potentes alucin an menos pero no dejan de hacerlo. Todo sistema de IA en producción debe asumi que habrá alucinaciones y diseñar defensas en consecuencia.

Términos relacionados

[[rag]] — Principal técnica para reducir alucinaciones con conocimiento externo
[[evals]] — Para detectar y medir la tasa de alucinaciones
[[guardrails]] — Capa de validación que puede detectar respuestas problemáticas
[[system-prompt]] — Puede incluir instrucciones para reducir alucinaciones

Pon en práctica lo que has aprendido

Tenemos una herramienta gratuita directamente relacionada con este concepto.

Evaluador de system prompts →

Términos relacionados

Evals

Evaluaciones sistemáticas que miden la calidad, precisión y comportamiento de un sistema de IA. Son los tests automatizados de la ingeniería de IA.

Guardrails

Restricciones y controles que limitan el comportamiento de un sistema de IA para hacerlo seguro, coherente y predecible dentro de un alcance definido.

Prompt Injection

Ataque donde instrucciones maliciosas en los datos que procesa el modelo intentan modificar su comportamiento para saltarse guardrails o ejecutar acciones no autorizadas.

RAG

Retrieval-Augmented Generation: técnica que combina búsqueda de información en una base de conocimiento con generación de texto para producir respuestas precisas y verificables.

← Ver todos los términos del glosario

Recibe lo mejor de Contextología

Diseño de contexto, agentes y workflows de IA directamente en tu correo.