¿Qué es un agente RAG en n8n?

RAG (Retrieval Augmented Generation) es una técnica donde el modelo de IA, antes de responder, busca fragmentos relevantes en tus propios documentos y los usa como contexto. En n8n se arma con tres piezas: un vector store que guarda los documentos como embeddings, un nodo OpenAI Embeddings y el nodo AI Agent que recupera y responde. Así el modelo contesta con tu información real en vez de inventar.

¿Necesito programar para hacer RAG en n8n?

No. n8n trae nodos nativos para vector stores (Pinecone, Qdrant, Supabase, PGVector) y para embeddings de OpenAI. El flujo se arma arrastrando nodos. Sí conviene entender los conceptos (chunking, embeddings, top-k) para que las respuestas sean buenas, pero no escribís código salvo para limpieza de datos puntual.

¿Cuánto cuesta correr un agente RAG con OpenAI en n8n?

Dos costos: indexar los documentos una vez (embeddings con text-embedding-3-small cuesta cerca de USD 0,02 por millón de tokens, así que 500 páginas salen centavos) y cada consulta (embedding de la pregunta + respuesta del modelo). Con gpt-4o-mini, una consulta típica de RAG cuesta entre USD 0,0003 y USD 0,002. Mil consultas al mes rondan USD 1 a 3.

¿Qué vector store conviene para empezar?

Si ya usás Postgres o Supabase, PGVector o Supabase Vector es lo más simple porque no agregás otro servicio. Si querés algo gestionado y gratis para empezar, Qdrant Cloud o Pinecone tienen plan free que alcanza para miles de documentos. Para self-hosted total, Qdrant en Docker junto a tu n8n.

¿Cuándo NO conviene usar RAG en n8n?

Cuando tenés pocos documentos que caben en el contexto del modelo (mejor pegarlos directo en el prompt), cuando la información cambia cada minuto y no podés reindexar a tiempo, o cuando necesitás cálculos exactos sobre datos estructurados (ahí va una base de datos y SQL, no un vector store).

¿El RAG en n8n filtra información confidencial?

El vector store guarda fragmentos de tus documentos, así que la confidencialidad depende de dónde lo alojes. Con Qdrant o PGVector self-hosted, los datos no salen de tu servidor salvo el texto que se manda a OpenAI por cada consulta. Si necesitás cero datos a terceros, se puede usar un modelo de embeddings y un LLM open-source on-premise.

n8n con OpenAI: construir un agente RAG sobre tus documentos

Si ya tenés documentos que tu equipo consulta todo el día (manuales, contratos, políticas, fichas de producto) y querés un asistente que responda preguntas sobre ellos sin inventar, RAG es la técnica y n8n es la forma más rápida de armarlo sin escribir un backend. Un agente RAG en n8n se construye con tres piezas: un vector store que guarda tus documentos como embeddings, el nodo OpenAI Embeddings que los convierte en vectores, y el nodo AI Agent que ante cada pregunta recupera los fragmentos relevantes y responde con esa información real. El flujo se arma arrastrando nodos, indexar 500 páginas cuesta centavos, y cada consulta con gpt-4o-mini ronda USD 0,0003 a 0,002. En esta guía armamos el flujo completo, con ejemplos de negocio de LATAM y los costos calculados.

Qué es RAG y por qué importa

RAG significa Retrieval Augmented Generation: en vez de pedirle a la IA que responda de memoria (donde alucina), primero busca los fragmentos relevantes en tus documentos y los inyecta como contexto en el prompt. El modelo solo redacta la respuesta a partir de ese material.

El problema que resuelve es concreto. Un modelo como gpt-4o-mini no conoce tu manual de garantías, tus tarifas internas ni el contrato que firmaste con un proveedor en marzo. Si le preguntás, inventa algo verosímil. Con RAG, antes de responder, el sistema recupera las dos o tres secciones de tus documentos que hablan del tema y el modelo responde con datos reales, citando de dónde salió.

Para una PyME esto es la diferencia entre un chatbot que da respuestas genéricas y un asistente que responde "según la política de devoluciones vigente desde abril, tenés 30 días" porque leyó tu PDF.

Las piezas del flujo en n8n

n8n trae todos los nodos nativos. No hace falta un backend aparte:

Pieza	Nodo en n8n	Para qué sirve
Embeddings	OpenAI Embeddings (text-embedding-3-small)	Convierte texto en vectores numéricos
Vector store	Pinecone / Qdrant / Supabase / PGVector	Guarda y busca esos vectores por similitud
Cargador	Default Data Loader + Text Splitter	Parte los documentos en chunks
Cerebro	AI Agent + OpenAI Chat Model	Recupera fragmentos y redacta la respuesta
Memoria	Window Buffer Memory (opcional)	Mantiene el hilo de una conversación

Paso 1: indexar tus documentos (el flujo de carga)

Este flujo corre una sola vez (o cada vez que cambian los documentos). El objetivo es llenar el vector store.

Trigger: un nodo manual, o un Google Drive trigger que dispara cuando subís un PDF a una carpeta.
Extraer texto: el nodo Extract from File saca el texto del PDF, DOCX o TXT.
Text Splitter: parte el texto en chunks de unos 500-1000 caracteres con un solapamiento de 100. El chunking es clave: chunks muy grandes diluyen la búsqueda, muy chicos pierden contexto.
OpenAI Embeddings: convierte cada chunk en un vector. Usá text-embedding-3-small, que cuesta USD 0,02 por millón de tokens.
Vector Store (Insert): guarda cada vector con su texto original como metadata.

Indexar un manual de 500 páginas (unas 250.000 palabras, ~330.000 tokens) cuesta alrededor de USD 0,007 en embeddings. No es un error: son menos de un centavo.

Paso 2: el agente que responde (el flujo de consulta)

Este es el flujo que tu equipo usa día a día, por ejemplo conectado a un formulario, a WhatsApp o a un chat interno.

Trigger: webhook, chat, o un nodo de WhatsApp/Telegram.
AI Agent: el nodo central. Le conectás como herramienta el Vector Store (Retrieve), que ante cada pregunta busca los top-k chunks (típicamente 3-4) más parecidos.
OpenAI Chat Model: gpt-4o-mini para el 80% de los casos; subí a gpt-4o solo si las respuestas necesitan razonamiento fino.
Memoria (opcional): si es un chat conversacional, agregás Window Buffer Memory para que recuerde las preguntas anteriores.
Respuesta: el agente devuelve el texto, idealmente con la fuente del documento.

El truco está en el system prompt del agente: indicale explícitamente "respondé solo con la información de los documentos recuperados; si no está, decí que no lo sabés". Eso reduce las alucinaciones casi a cero.

¿Querés un asistente que responda sobre tus manuales y contratos sin inventar, andando esta semana? Agendá una reunión de presentación y te mostramos un RAG funcionando con tus propios documentos.

Un ejemplo real: soporte de una distribuidora

Una distribuidora de repuestos en Córdoba tenía un catálogo técnico de 1.200 fichas (compatibilidades, medidas, equivalencias). El equipo de ventas perdía 10-15 minutos por consulta buscando en PDFs.

Armamos un RAG en n8n conectado a WhatsApp:

Indexación: las 1.200 fichas en Qdrant, costo de embeddings USD 0,03 una vez.
Consulta: el vendedor pregunta "¿qué filtro de aceite va en una Hilux 2018 diésel?" y el agente recupera la ficha correcta y responde en 4 segundos.
Costo por consulta: ~USD 0,001 con gpt-4o-mini.
Resultado: 200 consultas diarias resueltas sin abrir un PDF, costo mensual de IA cercano a USD 6.

Este tipo de integración suele combinarse con chatbots con IA o con un flujo más amplio de automatización con IA según dónde vivan las consultas.

Costos reales de punta a punta

Concepto	Modelo / servicio	Costo estimado
Indexar 500 páginas	text-embedding-3-small	~USD 0,007 (una vez)
Embedding de cada pregunta	text-embedding-3-small	~USD 0,000002
Respuesta por consulta	gpt-4o-mini	~USD 0,0003 a 0,002
1.000 consultas/mes	gpt-4o-mini	~USD 1 a 3
Vector store gestionado	Qdrant Cloud / Pinecone free	USD 0 para empezar

El costo dominante no es la IA: es el tiempo de armar bien el chunking y el system prompt. Una vez calibrado, el RAG corre por centavos.

Cuándo NO tiene sentido un RAG en n8n

Seamos honestos, RAG no es la respuesta para todo:

Pocos documentos: si tenés 3 PDFs cortos que caben en el contexto del modelo, pegalos directo en el prompt. RAG agrega complejidad innecesaria.
Datos que cambian cada minuto: el vector store hay que reindexarlo cuando cambian los documentos. Si la fuente se actualiza constantemente, una consulta directa a tu base de datos o API es mejor.
Cálculos exactos: ¿"cuánto vendimos en abril"? Eso es SQL sobre datos estructurados, no búsqueda semántica. RAG es para texto e información cualitativa.
Necesitás 100% de precisión legal: RAG reduce alucinaciones pero no las elimina. Para respuestas con consecuencias legales, siempre revisión humana.

Si tu caso pide algo más a medida (lógica de negocio, permisos, integraciones complejas), probablemente no sea solo un workflow de n8n sino una pieza de software a medida o un agente de IA productivo con su propio backend.

Errores comunes que arruinan un RAG

Chunks mal definidos: el error número uno. Probá distintos tamaños y medí qué recupera mejor.
Top-k demasiado bajo o alto: con 1 chunk perdés contexto, con 15 metés ruido y gastás tokens. Empezá con 3-4.
Mezclar idiomas sin avisar: si tus documentos están en español y preguntan en inglés, aclaralo en el prompt.
No guardar la fuente: sin metadata del documento, no podés verificar de dónde salió la respuesta.
Usar el modelo más caro por defecto: gpt-4o-mini resuelve la mayoría. Subí solo cuando lo notes.

Cómo lo armamos en producción

Un RAG de demo se arma en una tarde. Uno de producción necesita: reindexación automática cuando cambian documentos, control de quién puede preguntar qué, logs de consultas para auditar respuestas, y un fallback claro cuando el agente no encuentra nada. Ese salto de "anda en mi pantalla" a "lo usa todo el equipo sin sorpresas" es donde la mayoría se traba.

En Deepyze armamos agentes RAG sobre los documentos reales de cada empresa: manuales, contratos, catálogos, bases de conocimiento. Lo conectamos a WhatsApp, a tu CRM o a un chat interno, con costos controlados y respuestas verificables. Comenzá tu proyecto y en una llamada te decimos si RAG es lo tuyo o si conviene otra cosa, sin venderte humo.

n8n con OpenAI: construir un agente RAG sobre tus documentos

Qué es RAG y por qué importa

Las piezas del flujo en n8n

Paso 1: indexar tus documentos (el flujo de carga)

Paso 2: el agente que responde (el flujo de consulta)

Un ejemplo real: soporte de una distribuidora

Costos reales de punta a punta

Cuándo NO tiene sentido un RAG en n8n

Errores comunes que arruinan un RAG

Cómo lo armamos en producción

Preguntas frecuentes

¿Querés que esto funcione en tu empresa?

¿Necesitás n8n y Workflows para tu empresa?

Seguir leyendo

N8N vs Make vs Zapier: cuál conviene para una PyME LATAM en 2026

Cómo automatizar la facturación en PyMEs argentinas con N8N

Errores comunes al automatizar con n8n (y cómo evitarlos)