C
Contextología
Glosario

Embeddings

Representaciones numéricas de texto que capturan su significado semántico. Son la base de la búsqueda semántica, RAG y muchas aplicaciones de IA.

Qué es

Un embedding es un vector numérico que representa el significado de un texto. Textos con significados parecidos producen vectores matemáticamente cercanos. Textos con significados distintos producen vectores alejados.

Por qué importa

Los ordenadores no entienden palabras, pero sí números. Los embeddings son el puente que permite buscar por significado en lugar de por palabras exactas. Son la pieza técnica que hace posible el RAG y la búsqueda semántica.

Cómo se usa

  1. Cada fragmento de texto se convierte en un vector usando un modelo de embeddings
  2. Los vectores se almacenan en una vector database
  3. Cuando buscas, tu consulta se convierte en otro vector
  4. Se devuelven los fragmentos más cercanos matemáticamente (más similares semánticamente)

Ejemplo

Sin embeddings: buscar "cancelar suscripción" solo encuentra documentos con esas palabras exactas.

Con embeddings: buscar "cancelar suscripción" también encuentra "anular mi cuenta", "dar de baja el servicio", "dejar de pagar".

Modelos populares

  • OpenAI text-embedding-3-small / large
  • Cohere Embed (multilingual)
  • nomic-embed-text (local, gratis)
  • all-MiniLM-L6-v2 (ligero, para pruebas)

Errores comunes

  • Usar embeddings de un idioma para buscar en otro sin un modelo multilingual
  • No actualizar los embeddings cuando cambian los documentos fuente
  • Chunks demasiado pequeños que pierden contexto o demasiado grandes que incluyen ruido

Términos relacionados

Pon en práctica lo que has aprendido

Tenemos una herramienta gratuita directamente relacionada con este concepto.

Analizador de context window

Artículo relacionado

Qué son los embeddings

Recibe lo mejor de Contextología

Diseño de contexto, agentes y workflows de IA directamente en tu correo.