Cómo crear una base de conocimiento para IA
10 de noviembre de 2025· 3 min read
Por qué importa la base de conocimiento
Un sistema RAG es tan bueno como su base de conocimiento. Puedes tener el mejor modelo y la mejor arquitectura técnica, pero si tus documentos son de mala calidad, las respuestas también lo serán.
"Garbage in, garbage out" aplica especialmente aquí.
Paso 1: Define qué debe saber tu sistema
Antes de indexar nada, responde:
- ¿Qué preguntas debe poder responder el sistema?
- ¿Qué información existe ya (documentos, bases de datos, webs)?
- ¿Con qué frecuencia cambia esa información?
- ¿Quién es responsable de mantenerla actualizada?
Esto define el alcance y evita indexar información irrelevante que añade ruido.
Paso 2: Selecciona y limpia los documentos
No todos los documentos son buenos candidatos para RAG. Prioriza:
Buenos documentos para RAG:
- Documentación técnica actualizada
- FAQs y casos de soporte resueltos
- Manuales de producto
- Políticas y procedimientos vigentes
- Artículos de base de conocimiento
Documentos problemáticos:
- Versiones antiguas o desactualizadas
- Documentos con información contradictoria
- Contenido mal estructurado o con mucho ruido (headers de PDFs, tablas rotas)
- Documentos muy cortos sin contexto suficiente
Paso 3: Prepara y estructura el contenido
Limpieza básica
- Elimina headers, footers y metadatos repetitivos de PDFs
- Corrige encoding de caracteres
- Elimina tablas de contenidos y páginas de portada
- Unifica el formato cuando sea posible
Añade contexto
Cada fragmento debe poder entenderse de forma independiente. Añade encabezados informativos:
Producto: X1 Pro
Sección: Solución de problemas
Subsección: Errores de conexión
Error "No se puede conectar al servidor" en X1 Pro...
Paso 4: Elige una estrategia de chunking
Chunking es cómo divides los documentos en fragmentos para indexar. Es crítico para la calidad del RAG.
Chunk fijo por tokens (simple, buen punto de partida):
- 512-1024 tokens por chunk
- Overlap del 10-20% para no perder contexto en los cortes
Chunk por estructura semántica (mejor calidad):
- Divide por párrafos o secciones naturales
- Cada chunk contiene una idea completa
- Más complejo pero produce mejores resultados
Regla práctica: chunks demasiado cortos pierden contexto. Chunks demasiado largos incluyen demasiado ruido. 512-800 tokens es un buen punto de partida.
Paso 5: Indexa con metadatos
Los metadatos son tan importantes como el contenido. Indexa junto con cada chunk:
{
"content": "El texto del fragmento...",
"source": "manual-producto-x1-v2.pdf",
"section": "Solución de problemas",
"date_updated": "2026-01",
"product": "X1 Pro",
"language": "es"
}
Los metadatos permiten filtrar resultados antes de la búsqueda semántica, lo que mejora la precisión y la velocidad.
Paso 6: Mantén la base de conocimiento actualizada
Una base de conocimiento obsoleta es peor que no tener ninguna: el sistema responde con información incorrecta con total confianza.
Implementa:
- Fecha de expiración en documentos con información que cambia
- Pipeline de actualización automático para fuentes web o bases de datos
- Revisión periódica del contenido más consultado
- Feedback loop: qué preguntas no se están respondiendo bien
Siguiente: Qué es MCP y por qué importa
Recibe lo mejor de Contextología
Diseño de contexto, agentes y workflows de IA directamente en tu correo.