C
Contextología
RAG

Cómo crear una base de conocimiento para IA

10 de noviembre de 2025· 3 min read

Por qué importa la base de conocimiento

Un sistema RAG es tan bueno como su base de conocimiento. Puedes tener el mejor modelo y la mejor arquitectura técnica, pero si tus documentos son de mala calidad, las respuestas también lo serán.

"Garbage in, garbage out" aplica especialmente aquí.

Paso 1: Define qué debe saber tu sistema

Antes de indexar nada, responde:

  • ¿Qué preguntas debe poder responder el sistema?
  • ¿Qué información existe ya (documentos, bases de datos, webs)?
  • ¿Con qué frecuencia cambia esa información?
  • ¿Quién es responsable de mantenerla actualizada?

Esto define el alcance y evita indexar información irrelevante que añade ruido.

Paso 2: Selecciona y limpia los documentos

No todos los documentos son buenos candidatos para RAG. Prioriza:

Buenos documentos para RAG:

  • Documentación técnica actualizada
  • FAQs y casos de soporte resueltos
  • Manuales de producto
  • Políticas y procedimientos vigentes
  • Artículos de base de conocimiento

Documentos problemáticos:

  • Versiones antiguas o desactualizadas
  • Documentos con información contradictoria
  • Contenido mal estructurado o con mucho ruido (headers de PDFs, tablas rotas)
  • Documentos muy cortos sin contexto suficiente

Paso 3: Prepara y estructura el contenido

Limpieza básica

  • Elimina headers, footers y metadatos repetitivos de PDFs
  • Corrige encoding de caracteres
  • Elimina tablas de contenidos y páginas de portada
  • Unifica el formato cuando sea posible

Añade contexto

Cada fragmento debe poder entenderse de forma independiente. Añade encabezados informativos:

Producto: X1 Pro
Sección: Solución de problemas
Subsección: Errores de conexión

Error "No se puede conectar al servidor" en X1 Pro...

Paso 4: Elige una estrategia de chunking

Chunking es cómo divides los documentos en fragmentos para indexar. Es crítico para la calidad del RAG.

Chunk fijo por tokens (simple, buen punto de partida):

  • 512-1024 tokens por chunk
  • Overlap del 10-20% para no perder contexto en los cortes

Chunk por estructura semántica (mejor calidad):

  • Divide por párrafos o secciones naturales
  • Cada chunk contiene una idea completa
  • Más complejo pero produce mejores resultados

Regla práctica: chunks demasiado cortos pierden contexto. Chunks demasiado largos incluyen demasiado ruido. 512-800 tokens es un buen punto de partida.

Paso 5: Indexa con metadatos

Los metadatos son tan importantes como el contenido. Indexa junto con cada chunk:

{
  "content": "El texto del fragmento...",
  "source": "manual-producto-x1-v2.pdf",
  "section": "Solución de problemas",
  "date_updated": "2026-01",
  "product": "X1 Pro",
  "language": "es"
}

Los metadatos permiten filtrar resultados antes de la búsqueda semántica, lo que mejora la precisión y la velocidad.

Paso 6: Mantén la base de conocimiento actualizada

Una base de conocimiento obsoleta es peor que no tener ninguna: el sistema responde con información incorrecta con total confianza.

Implementa:

  • Fecha de expiración en documentos con información que cambia
  • Pipeline de actualización automático para fuentes web o bases de datos
  • Revisión periódica del contenido más consultado
  • Feedback loop: qué preguntas no se están respondiendo bien

Siguiente: Qué es MCP y por qué importa

Recibe lo mejor de Contextología

Diseño de contexto, agentes y workflows de IA directamente en tu correo.