Vector Database

Base de datos especializada en almacenar embeddings y buscar por similitud semántica. Componente central de los sistemas RAG.

Qué es

Una vector database es una base de datos diseñada para almacenar y consultar vectores (embeddings) de forma eficiente. Su operación principal es la búsqueda por similitud: dado un vector de consulta, devuelve los vectores más cercanos matemáticamente.

Por qué importa

Las bases de datos tradicionales buscan por igualdad exacta ("dame todos los registros donde nombre = 'Juan'"). Una vector database busca por similitud semántica ("dame los fragmentos de texto con significado más parecido a esta pregunta"). Es el componente que hace posible RAG.

Cómo funciona

Indexas documentos: cada fragmento se convierte en embedding y se almacena junto con su vector y metadatos
Cuando consultas: tu pregunta se convierte en embedding
La base de datos calcula la similitud coseno entre tu vector y todos los almacenados
Devuelve los K más similares (top-K retrieval)

Opciones principales

| Opción | Tipo | Notas | |---|---|---| | Pinecone | Cloud gestionado | Fácil de usar, caro a escala | | Weaviate | Self-hosted / cloud | Muy completo, open source | | Qdrant | Self-hosted / cloud | Rápido, open source | | Chroma | Local / self-hosted | Ideal para desarrollo | | pgvector | Extensión PostgreSQL | Si ya usas Postgres | | Supabase | Cloud PostgreSQL | pgvector gestionado |

Cuándo no necesitas una vector database

Si tu base de conocimiento tiene menos de unos pocos miles de documentos y no tienes requisitos de latencia estrictos, puedes calcular similitudes en memoria sin una base de datos dedicada. Chroma o incluso arrays de numpy son suficientes para prototipos.