Chunking — Glosario de IA

Proceso de dividir documentos largos en fragmentos más pequeños para indexarlos en una base de datos vectorial en sistemas RAG.

Qué es Chunking

Chunking es el proceso de dividir documentos largos en fragmentos más pequeños (chunks) antes de convertirlos en embeddings e indexarlos en una base de datos vectorial.

Es un paso fundamental en cualquier sistema RAG. El tamaño y la estrategia de chunking afectan directamente la calidad de la recuperación.

Por qué importa

Los modelos de embeddings tienen un límite de tokens. Un documento de 50 páginas no puede convertirse en un único vector significativo.

Además, para recuperar información relevante necesitas que cada fragmento sea semánticamente coherente. Si divides mal, el chunk que recuperas tiene el principio de una idea pero no el final.

Estrategias principales

Por tamaño fijo

El método más simple: divide cada N tokens con solapamiento.

Chunk size: 512 tokens
Overlap: 50 tokens

Rápido y fácil de implementar. Puede cortar a mitad de oración.

Por estructura del documento

Divide por secciones naturales: párrafos, encabezados, páginas.

Mucho mejor para documentos estructurados (manuales, contratos, artículos).

Semántico

Agrupa frases hasta que el contenido semántico cambia significativamente.

Produce los chunks más coherentes pero es más lento y complejo.

Parent-child

Indexas chunks pequeños pero recuperas el documento padre completo cuando hay coincidencia.

Combina precisión en la búsqueda con contexto completo para el LLM.

Cuál elegir

| Tipo de documento | Estrategia recomendada | |---|---| | Texto libre (artículos, blogs) | Semántico o por párrafo | | Documentos estructurados (contratos, manuales) | Por sección/encabezado | | PDFs mixtos | Parent-child | | Código fuente | Por función/clase |

Errores comunes

Chunks demasiado pequeños: Cada chunk pierde contexto. El LLM recibe fragmentos sin suficiente información.

Chunks demasiado grandes: Cada chunk contiene demasiada información mezclada. La búsqueda vectorial lo recupera por una parte y el LLM tiene ruido del resto.

Sin solapamiento: Los chunks adyacentes pueden perder información en el corte. Un solapamiento del 10-15% ayuda.

Mismo tamaño para todo: Un chunk para código tiene diferentes necesidades que uno para texto narrativo.

Términos relacionados

[[rag]] — El sistema donde vive el chunking
[[embeddings]] — Lo que se genera de cada chunk
[[vector-database]] — Donde se indexan los chunks como vectores