Si ya tenés documentos que tu equipo consulta todo el día (manuales, contratos, políticas, fichas de producto) y querés un asistente que responda preguntas sobre ellos sin inventar, RAG es la técnica y n8n es la forma más rápida de armarlo sin escribir un backend. Un agente RAG en n8n se construye con tres piezas: un vector store que guarda tus documentos como embeddings, el nodo OpenAI Embeddings que los convierte en vectores, y el nodo AI Agent que ante cada pregunta recupera los fragmentos relevantes y responde con esa información real. El flujo se arma arrastrando nodos, indexar 500 páginas cuesta centavos, y cada consulta con gpt-4o-mini ronda USD 0,0003 a 0,002. En esta guía armamos el flujo completo, con ejemplos de negocio de LATAM y los costos calculados.
Qué es RAG y por qué importa
RAG significa Retrieval Augmented Generation: en vez de pedirle a la IA que responda de memoria (donde alucina), primero busca los fragmentos relevantes en tus documentos y los inyecta como contexto en el prompt. El modelo solo redacta la respuesta a partir de ese material.
El problema que resuelve es concreto. Un modelo como gpt-4o-mini no conoce tu manual de garantías, tus tarifas internas ni el contrato que firmaste con un proveedor en marzo. Si le preguntás, inventa algo verosímil. Con RAG, antes de responder, el sistema recupera las dos o tres secciones de tus documentos que hablan del tema y el modelo responde con datos reales, citando de dónde salió.
Para una PyME esto es la diferencia entre un chatbot que da respuestas genéricas y un asistente que responde "según la política de devoluciones vigente desde abril, tenés 30 días" porque leyó tu PDF.
Las piezas del flujo en n8n
n8n trae todos los nodos nativos. No hace falta un backend aparte:
| Pieza | Nodo en n8n | Para qué sirve |
|---|---|---|
| Embeddings | OpenAI Embeddings (text-embedding-3-small) | Convierte texto en vectores numéricos |
| Vector store | Pinecone / Qdrant / Supabase / PGVector | Guarda y busca esos vectores por similitud |
| Cargador | Default Data Loader + Text Splitter | Parte los documentos en chunks |
| Cerebro | AI Agent + OpenAI Chat Model | Recupera fragmentos y redacta la respuesta |
| Memoria | Window Buffer Memory (opcional) | Mantiene el hilo de una conversación |
Paso 1: indexar tus documentos (el flujo de carga)
Este flujo corre una sola vez (o cada vez que cambian los documentos). El objetivo es llenar el vector store.
- Trigger: un nodo manual, o un Google Drive trigger que dispara cuando subís un PDF a una carpeta.
- Extraer texto: el nodo Extract from File saca el texto del PDF, DOCX o TXT.
- Text Splitter: parte el texto en chunks de unos 500-1000 caracteres con un solapamiento de 100. El chunking es clave: chunks muy grandes diluyen la búsqueda, muy chicos pierden contexto.
- OpenAI Embeddings: convierte cada chunk en un vector. Usá
text-embedding-3-small, que cuesta USD 0,02 por millón de tokens. - Vector Store (Insert): guarda cada vector con su texto original como metadata.
Indexar un manual de 500 páginas (unas 250.000 palabras, ~330.000 tokens) cuesta alrededor de USD 0,007 en embeddings. No es un error: son menos de un centavo.
Paso 2: el agente que responde (el flujo de consulta)
Este es el flujo que tu equipo usa día a día, por ejemplo conectado a un formulario, a WhatsApp o a un chat interno.
- Trigger: webhook, chat, o un nodo de WhatsApp/Telegram.
- AI Agent: el nodo central. Le conectás como herramienta el Vector Store (Retrieve), que ante cada pregunta busca los top-k chunks (típicamente 3-4) más parecidos.
- OpenAI Chat Model: gpt-4o-mini para el 80% de los casos; subí a gpt-4o solo si las respuestas necesitan razonamiento fino.
- Memoria (opcional): si es un chat conversacional, agregás Window Buffer Memory para que recuerde las preguntas anteriores.
- Respuesta: el agente devuelve el texto, idealmente con la fuente del documento.
El truco está en el system prompt del agente: indicale explícitamente "respondé solo con la información de los documentos recuperados; si no está, decí que no lo sabés". Eso reduce las alucinaciones casi a cero.
¿Querés un asistente que responda sobre tus manuales y contratos sin inventar, andando esta semana? Agendá una reunión de presentación y te mostramos un RAG funcionando con tus propios documentos.
Un ejemplo real: soporte de una distribuidora
Una distribuidora de repuestos en Córdoba tenía un catálogo técnico de 1.200 fichas (compatibilidades, medidas, equivalencias). El equipo de ventas perdía 10-15 minutos por consulta buscando en PDFs.
Armamos un RAG en n8n conectado a WhatsApp:
- Indexación: las 1.200 fichas en Qdrant, costo de embeddings USD 0,03 una vez.
- Consulta: el vendedor pregunta "¿qué filtro de aceite va en una Hilux 2018 diésel?" y el agente recupera la ficha correcta y responde en 4 segundos.
- Costo por consulta: ~USD 0,001 con gpt-4o-mini.
- Resultado: 200 consultas diarias resueltas sin abrir un PDF, costo mensual de IA cercano a USD 6.
Este tipo de integración suele combinarse con chatbots con IA o con un flujo más amplio de automatización con IA según dónde vivan las consultas.
Costos reales de punta a punta
| Concepto | Modelo / servicio | Costo estimado |
|---|---|---|
| Indexar 500 páginas | text-embedding-3-small | ~USD 0,007 (una vez) |
| Embedding de cada pregunta | text-embedding-3-small | ~USD 0,000002 |
| Respuesta por consulta | gpt-4o-mini | ~USD 0,0003 a 0,002 |
| 1.000 consultas/mes | gpt-4o-mini | ~USD 1 a 3 |
| Vector store gestionado | Qdrant Cloud / Pinecone free | USD 0 para empezar |
El costo dominante no es la IA: es el tiempo de armar bien el chunking y el system prompt. Una vez calibrado, el RAG corre por centavos.
Cuándo NO tiene sentido un RAG en n8n
Seamos honestos, RAG no es la respuesta para todo:
- Pocos documentos: si tenés 3 PDFs cortos que caben en el contexto del modelo, pegalos directo en el prompt. RAG agrega complejidad innecesaria.
- Datos que cambian cada minuto: el vector store hay que reindexarlo cuando cambian los documentos. Si la fuente se actualiza constantemente, una consulta directa a tu base de datos o API es mejor.
- Cálculos exactos: ¿"cuánto vendimos en abril"? Eso es SQL sobre datos estructurados, no búsqueda semántica. RAG es para texto e información cualitativa.
- Necesitás 100% de precisión legal: RAG reduce alucinaciones pero no las elimina. Para respuestas con consecuencias legales, siempre revisión humana.
Si tu caso pide algo más a medida (lógica de negocio, permisos, integraciones complejas), probablemente no sea solo un workflow de n8n sino una pieza de software a medida o un agente de IA productivo con su propio backend.
Errores comunes que arruinan un RAG
- Chunks mal definidos: el error número uno. Probá distintos tamaños y medí qué recupera mejor.
- Top-k demasiado bajo o alto: con 1 chunk perdés contexto, con 15 metés ruido y gastás tokens. Empezá con 3-4.
- Mezclar idiomas sin avisar: si tus documentos están en español y preguntan en inglés, aclaralo en el prompt.
- No guardar la fuente: sin metadata del documento, no podés verificar de dónde salió la respuesta.
- Usar el modelo más caro por defecto: gpt-4o-mini resuelve la mayoría. Subí solo cuando lo notes.
Cómo lo armamos en producción
Un RAG de demo se arma en una tarde. Uno de producción necesita: reindexación automática cuando cambian documentos, control de quién puede preguntar qué, logs de consultas para auditar respuestas, y un fallback claro cuando el agente no encuentra nada. Ese salto de "anda en mi pantalla" a "lo usa todo el equipo sin sorpresas" es donde la mayoría se traba.
En Deepyze armamos agentes RAG sobre los documentos reales de cada empresa: manuales, contratos, catálogos, bases de conocimiento. Lo conectamos a WhatsApp, a tu CRM o a un chat interno, con costos controlados y respuestas verificables. Comenzá tu proyecto y en una llamada te decimos si RAG es lo tuyo o si conviene otra cosa, sin venderte humo.
Preguntas frecuentes
¿Qué es un agente RAG en n8n?+
RAG (Retrieval Augmented Generation) es una técnica donde el modelo de IA, antes de responder, busca fragmentos relevantes en tus propios documentos y los usa como contexto. En n8n se arma con tres piezas: un vector store que guarda los documentos como embeddings, un nodo OpenAI Embeddings y el nodo AI Agent que recupera y responde. Así el modelo contesta con tu información real en vez de inventar.
¿Necesito programar para hacer RAG en n8n?+
No. n8n trae nodos nativos para vector stores (Pinecone, Qdrant, Supabase, PGVector) y para embeddings de OpenAI. El flujo se arma arrastrando nodos. Sí conviene entender los conceptos (chunking, embeddings, top-k) para que las respuestas sean buenas, pero no escribís código salvo para limpieza de datos puntual.
¿Cuánto cuesta correr un agente RAG con OpenAI en n8n?+
Dos costos: indexar los documentos una vez (embeddings con text-embedding-3-small cuesta cerca de USD 0,02 por millón de tokens, así que 500 páginas salen centavos) y cada consulta (embedding de la pregunta + respuesta del modelo). Con gpt-4o-mini, una consulta típica de RAG cuesta entre USD 0,0003 y USD 0,002. Mil consultas al mes rondan USD 1 a 3.
¿Qué vector store conviene para empezar?+
Si ya usás Postgres o Supabase, PGVector o Supabase Vector es lo más simple porque no agregás otro servicio. Si querés algo gestionado y gratis para empezar, Qdrant Cloud o Pinecone tienen plan free que alcanza para miles de documentos. Para self-hosted total, Qdrant en Docker junto a tu n8n.
¿Cuándo NO conviene usar RAG en n8n?+
Cuando tenés pocos documentos que caben en el contexto del modelo (mejor pegarlos directo en el prompt), cuando la información cambia cada minuto y no podés reindexar a tiempo, o cuando necesitás cálculos exactos sobre datos estructurados (ahí va una base de datos y SQL, no un vector store).
¿El RAG en n8n filtra información confidencial?+
El vector store guarda fragmentos de tus documentos, así que la confidencialidad depende de dónde lo alojes. Con Qdrant o PGVector self-hosted, los datos no salen de tu servidor salvo el texto que se manda a OpenAI por cada consulta. Si necesitás cero datos a terceros, se puede usar un modelo de embeddings y un LLM open-source on-premise.
¿Querés que esto funcione en tu empresa?
En Deepyze convertimos procesos manuales en sistemas que trabajan solos: automatización con IA, apps web y móviles, y software a medida. Contanos tu caso y en 24 hs tenés una propuesta concreta.
Sin compromiso · Respuesta en 24 hs · Equipo en tu mismo huso horario