RAG

Retrieval-Augmented Generation: técnica que combina búsqueda de información en una base de conocimiento con generación de texto para producir respuestas precisas y verificables.

Qué es

RAG (Retrieval-Augmented Generation) es una arquitectura de sistema de IA que antes de generar una respuesta, busca información relevante en una base de conocimiento y la incluye en el contexto del modelo.

Por qué importa

Resuelve dos problemas fundamentales de los LLMs:

El conocimiento del modelo está congelado en el tiempo (no sabe nada de después de su entrenamiento)
El modelo no tiene acceso a tu información privada o específica del dominio

Con RAG, el modelo puede responder con información actualizada y específica sin necesidad de reentrenamiento.

Cómo funciona

Tus documentos se indexan como embeddings en una vector database
Cuando llega una pregunta, se convierte también en un embedding
Se recuperan los fragmentos del documento más similares a la pregunta
El modelo genera la respuesta usando esos fragmentos como contexto

Cuándo usar RAG

Cuando necesitas respuestas basadas en documentación propia o privada
Cuando la información cambia frecuentemente
Cuando necesitas que las respuestas sean verificables con fuentes concretas
Para reducir alucinaciones en dominios especializados

Componentes técnicos

Documentos fuente (PDFs, webs, bases de datos)
Modelo de embeddings
Vector database
Retriever (lógica de búsqueda)
LLM (generación final)