Agencia con IA en 2026 ya no significa nada: el 90% es ChatGPT + Zapier. Las 3 métricas que tienes que exigir antes de firmar y cómo detectar AI-washing.
ROI real de una agencia con agentes IA: 3 métricas que tienes que exigir antes de firmar
En Esconzeta somos una agencia con agentes IA, así que escribimos este post desde dentro. Y desde dentro vemos lo que casi nadie cuenta: el 90% de lo que se vende como agencia con IA en 2026 es ChatGPT con un prompt copiado y Zapier mal montado. Si vas a firmar con una, las 3 métricas que tienes que exigir antes de hacerlo son pipeline atribuible por euro invertido, CAC payback de la cohorte que tocaron y productividad neta humana. El resto es relleno.
Este post destripa los términos que se usan mal (agente, workflow, prompt), nombra herramientas reales y propone el contrato sano que deberías firmar.
Agencia con IA en 2026 ya no significa nada
La etiqueta se ha vaciado. La mayoría de páginas de agenciaia.ai, automaxia, neoroi y similares son páginas comerciales sin sustancia ni casos verificables. Generan curiosidad, no resultados. Y el comprador medio firma porque suena moderno, no porque entienda qué compra.
Distinguir las que sí hacen de las que solo dicen requiere preguntar bien. Esa es la parte fácil que casi nadie hace. La razón por la que no se pregunta es comprensible: el comprador medio (CMO, CEO, responsable de marketing) no quiere quedar mal por desconocer los términos técnicos. Y la agencia se aprovecha de esa asimetría. Cuanto más complejo suene el pitch, menos cuestionable parece.
El antídoto es sencillo: convertir la asimetría en preguntas concretas con respuestas verificables. No hace falta entender el modelo por dentro, basta con saber qué pedir antes de firmar.
Qué es un agente IA de verdad (y por qué tu agencia probablemente no tiene)
Los términos se usan como sinónimos y no lo son:
| Concepto | Qué es | Ejemplo |
|---|---|---|
| Prompt | Instrucción a un modelo (ChatGPT, Claude, Gemini) | Resume este email en 3 líneas |
| Workflow | Secuencia fija de tareas con IA dentro | Zapier que coge email, lo resume con GPT y lo guarda en Notion |
| Automatización | Tarea repetitiva sin IA (o con IA opcional) | Make que mueve filas de Sheets a HubSpot |
| Agente IA | Sistema con acceso a datos, herramientas y capacidad de decisión sobre la siguiente acción | Agente que mira tu CRM, decide qué cuenta atacar, redacta el outbound y lo programa |
Sin acceso a tus datos, sin capacidad de tomar decisiones encadenadas y sin loop de corrección, lo que tienes no es un agente. Es un workflow con prompt dentro. No hay nada malo en un workflow, pero no lo vendas como otra cosa.
Las 3 métricas que tienes que exigir antes de firmar
1. Pipeline atribuible / euro invertido
No leads. No clics. No impresiones. Pipeline en euros generado por la actividad de la agencia, dividido por lo que pagas. Si la agencia no puede atribuir, no puede medir. Y si no puede medir, no puede mejorar.
Cómo medirlo: utm bien puestos, CRM con campo source-detail, dashboard único con web + CRM + tooling. Si la agencia no monta esto en el primer mes, mal síntoma. La pregunta concreta: ¿en qué mes 2 voy a tener un dashboard con euros atribuibles? Si la respuesta esquiva, no firmes.
Atribución no es perfecta nunca, pero atribución directa + lift incremental es lo más cercano a la verdad. En B2B mid-market con ciclos de 90 días, también vale la atribución de cohorte: cuántos contactos tocados en abril cerraron entre julio y septiembre. Es lo que vemos rendir en nuestros propios clientes.
2. CAC payback de la cohorte que tocó la agencia
De los clientes que entraron por el motor de la agencia, ¿en cuántos meses se ha recuperado la inversión? Si tu CAC payback es 24 meses y la agencia no lo baja a 12-18, no rinde. La métrica se calcula a cohorte (no global) y con datos reales del CRM.
3. Hora-humano ahorrada vs hora-humano necesaria para supervisar
Esta es la métrica más olvidada y la más reveladora. Si un agente IA escribe 50 emails outbound al día pero un humano necesita 3 horas para revisarlos antes de que salgan, la productividad neta es discutible. La métrica útil es productividad neta: horas ahorradas menos horas necesarias de supervisión.
Si una agencia no la mide, no entiende su propio servicio. Es la base de lo que en Esconzeta llamamos Growth Direction: humano decide y supervisa, agentes ejecutan el grueso. La métrica de productividad neta es la que permite al CFO entender qué está comprando. Si el dashboard mensual incluye horas ejecutadas por agente, horas de supervisión humana y output útil resultante, hay conversación seria. Si solo incluye número de tareas, hay marketing de agencia, no servicio.
La 4ª métrica que nadie mide y deberías: tasa de error del agente
Cuando un humano se equivoca en un email, lo asume él. Cuando se equivoca un agente, ¿quién asume? Mide:
- Frecuencia de errores del agente (1 de cada 50 outputs revisados, por ejemplo).
- Gravedad de errores (típo / dato inventado / contacto al cliente equivocado).
- Tiempo de detección y corrección.
- Responsabilidad contractual.
Sin esta métrica, contratar agente IA es delegar riesgo sin controlarlo. La cuestión no es si fallará, es cuándo y qué pasa entonces. Tratamos esto en detalle desde la perspectiva del cliente en nuestra guía de IA para pymes.
Caso real en un cliente B2B mid-market que vimos a principios de 2026: agente outbound generó por error 80 emails dirigiendo a una landing rota durante 36 horas. El cliente lo descubrió cuando un prospect le respondió molesto. La agencia no tenía logs de monitorización en tiempo real. Resultado: 80 contactos quemados, una semana de explicaciones y replanteo del contrato. La tasa de error nominal (menos del 1%) era aceptable. La gravedad y la falta de detección fue lo que provocó el problema.
Lo que NO sirve como métrica (pero te lo van a vender)
- Número de tareas automatizadas: hacer más tareas inútiles no es éxito.
- Posts generados: generar 200 posts/mes con IA no es marketing, es ruido.
- Horas ahorradas absolutas: sin contexto de productividad neta, es mentira honesta.
- Engagement: métricas de vanidad que no se traducen en pipeline.
- Tareas completadas por el agente: sin tasa de error y productividad neta, no significa nada.
Si el informe mensual de tu agencia gira en torno a estos números, está optimizando la presentación, no el negocio.
6 preguntas para detectar AI-washing en la primera reunión
- ¿Qué modelo o modelos usáis? (Claude Sonnet, GPT-4o, Gemini, modelos open source). Si responden la IA sin más, falla.
- ¿Trabajáis sobre nuestros datos o sobre públicos? Si no piden acceso a CRM, web y herramientas internas, no van a hacer agentes reales.
- ¿Quién revisa los outputs antes de salir? Si responden el cliente, falla. El revisor es responsabilidad de la agencia.
- ¿Qué pasa si el agente falla? Si no hay SLA y kill switch, falla.
- ¿Auditáis los outputs? Logs, sampling, dashboard de calidad. Si no existe, falla.
- ¿Qué métrica de negocio movéis con el agente? Si la respuesta es eficiencia genérica sin número, falla.
Aplica el mismo filtro al elegir agencia para CRO B2B mid-market o para marketing SaaS B2B.
Audita si tu agencia con IA hace de verdad lo que vende
Sin compromiso. Solo estrategia y datos reales.
¿Hablamos?Cómo es un contrato sano con agencia IA
Tres cláusulas mínimas no negociables:
- SLA de calidad: tasa máxima de error aceptable y compromiso de revisión. Si supera el umbral, créditos.
- Propiedad de datos: tus datos son tuyos. La agencia no puede entrenar con ellos para otros clientes. RGPD sin matices.
- Kill switch: derecho a parar el agente unilateralmente sin penalización en 24 horas. Acceso a logs antes, durante y después.
Cualquier contrato sin estas tres cláusulas es contrato leonino. Pídelas por escrito. La excusa habitual es nuestro modelo no permite kill switch o los datos están entrenados ya, no podemos garantizar que no se reutilicen. Si oyes alguna de las dos, sigue mirando agencia. La oferta del mercado en 2026 ya permite ambas cláusulas con tecnología disponible.
Punto añadido: pide acceso a un dashboard de actividad del agente en tiempo real, no solo informe mensual. Si la agencia no puede darte vista de qué está haciendo el agente esta semana, está vendiendo caja negra. Caja negra y RGPD no encajan bien.
Cuánto tarda en pagar (rangos por caso de uso)
| Caso de uso | Payback típico | Riesgo |
|---|---|---|
| Outbound con agentes | 60-90 días | Bajo si hay supervisión |
| Contenido SEO con agentes | 90-180 días | Medio (Google penaliza spam) |
| GEO (citaciones LLM) | 120-180 días | Medio (mercado emergente) |
| Soporte automatizado | 30-60 días | Bajo si quedan escalados humanos |
| Análisis de datos / scoring | 30-90 días | Bajo si datos están limpios |
Rangos según nuestro benchmark interno con clientes B2B mid-market. Si una agencia te promete payback en 30 días en cualquier caso de uso, exige el dashboard de su propia operación antes de firmar.
Los payback cortos suelen darse en automatizaciones de soporte (chatbot bien entrenado + escalado humano) y en scoring de leads (donde el agente ordena el trabajo del comercial y libera horas inmediatas). Los payback largos están en GEO y contenido SEO, porque dependen de cómo evolucione el comportamiento del usuario y de los buscadores. Si pagas igual por todos los casos de uso, estás financiando el riesgo del proveedor.
Otra observación: los payback se calculan con cohorte, no global. Si llevas 4 años con la agencia y mezclas todo el revenue acumulado con el coste acumulado, el número que sale es bonito pero inútil. Cohorte trimestral aislada es lo que da señal de mejora o deterioro real del motor.
Caso aplicado: Growth Direction en pyme B2B
El reparto que aplicamos en clientes a 90-180 días:
| Tarea | Quién | Frecuencia |
|---|---|---|
| Definir ICP y cuentas objetivo | Humano (estratega) | Trimestral |
| Research de cuenta | Agente | Diario |
| Borrador outbound personalizado | Agente | Diario |
| Revisión y envío | Humano (SDR) | Diario |
| Scoring de leads | Agente | Diario |
| Llamada comercial | Humano (ventas) | Diario |
| Análisis mensual | Humano + agente | Mensual |
Resultados esperables a 90 días: 30-50% más volumen outbound con la misma plantilla, 15-25% mejora en personalización, 20-40% reducción de tiempo en research. A 180 días: pipeline atribuible medible, CAC payback baja entre un 20% y un 35% según vertical.
Lo que no aparece en este reparto y debería: las horas que el responsable de marketing dedica a supervisar agentes en las primeras 6-8 semanas. Suelen ser entre 5 y 10 horas semanales de aprendizaje, ajuste de prompts y revisión de outputs. Si la agencia no anticipa ese coste interno en la propuesta, está vendiendo un escenario optimista. La curva se aplana a partir del mes 3, pero existe.
Checklist final antes de firmar: 12 puntos
- ¿Tienen acceso a mi CRM o solo a mi web?
- ¿Quién es responsable de revisar los outputs?
- ¿Qué modelo de IA usan y por qué ese?
- ¿Qué pasa si el modelo cambia o sube de precio?
- ¿Cómo miden la tasa de error del agente?
- ¿Cuál es el SLA y qué créditos hay si falla?
- ¿Qué KPI de negocio se compromete a mover?
- ¿Cómo se calcula el ROI mes a mes?
- ¿Quién es el dueño de los datos generados?
- ¿Puedo parar el agente en 24h sin penalización?
- ¿Tienen casos reales con métrica verificable, no solo logo?
- ¿Cuánto tarda en pagar el primer caso de uso?
Si la agencia tarda en responder a estos 12 puntos por escrito, sigue mirando. Si responde rápido y con datos, probablemente sabe lo que hace. Para entender el coste global, mira cuánto cuesta una agencia de marketing digital y revisa los 7 procesos donde los agentes IA aportan valor real. Si quieres ver cómo aplicamos esto en nuestro servicio de automatización con IA, ahí está el detalle.
Conclusión: el ROI honesto se enseña en datos, no en página comercial
El ROI real de una agencia con agentes IA solo se demuestra con dashboard abierto, métricas con contexto y casos con cliente verificable. Quien venda otra cosa (slides bonitas, promesas vagas o un demo en vacío) es exactamente la versión moderna de la agencia tradicional con peor reputación: la que cobra por horas que no audita y entrega outputs sin métrica de negocio detrás. Cuesta dinero descubrirlo. Cuesta más no preguntarlo. Si quieres que auditemos si tu agencia actual hace lo que vende, o si valoras contratarnos, escríbenos a jrgarcia@esconzeta.com.
Preguntas frecuentes sobre ROI de agencia con agentes IA
¿Qué hace una agencia de IA en marketing?
Una agencia de marketing con agentes IA combina estrategia humana con sistemas que ejecutan tareas: research de cuenta, enrichment, primer borrador de outbound, scoring de leads, generación de variantes de copy, análisis de feedback. Lo que NO hace (ni debe hacer): tomar decisiones estratégicas sin supervisión. El patrón sano es Growth Direction: humano decide, IA ejecuta el grueso operativo.¿Cómo se mide el ROI de la IA en marketing?
Con tres métricas mínimas: pipeline atribuible por euro invertido (no leads ni clics), CAC payback de la cohorte que tocó la agencia y productividad neta humana (horas ahorradas menos horas necesarias de supervisión). La 4ª métrica clave es tasa de error del agente. Sin estas, el ROI declarado es declarativo, no medible. Exige dashboard abierto.¿Cuánto cuesta una agencia de IA?
Según nuestro benchmark interno: implementaciones puntuales entre 4.000 y 15.000 euros. Servicio mensual lite (1-2 agentes operativos) entre 2.500 y 5.000 euros/mes. Servicio full (varios agentes integrados con CRM y herramientas) entre 6.000 y 15.000 euros/mes. Por debajo de 2.000 euros/mes es difícil que haya supervisión humana real y dashboard de calidad.¿Sustituye la IA al equipo de marketing humano?
No. Sustituye la parte repetitiva y de bajo criterio (research, enrichment, primer borrador, clustering, scoring). No sustituye el criterio estratégico, la relación comercial, el posicionamiento ni la decisión sobre qué cuenta atacar o qué mensaje funciona. El modelo Growth Direction reparte tareas: humano decide, IA ejecuta. Equipos pequeños con IA rinden lo que antes equipos el doble de grandes.¿Qué resultados puedo esperar y en cuánto tiempo?
Rangos típicos en B2B mid-market según el caso de uso: outbound con agentes paga en 60-90 días, contenido SEO en 90-180 días, GEO en 120-180 días, soporte automatizado en 30-60 días. Resultados habituales a 90 días: 30-50% más volumen con misma plantilla, 20-40% reducción tiempo en research. A 180 días: CAC payback baja entre 20% y 35% según vertical.¿Cómo saber si una agencia hace IA de verdad o es AI-washing?
Seis preguntas en la primera reunión: qué modelo usan, si trabajan sobre tus datos o sobre públicos, quién revisa los outputs antes de salir, qué pasa si el agente falla (SLA y kill switch), si auditan calidad con logs y sampling, y qué métrica de negocio se comprometen a mover. Si no responden con números y procesos concretos, es AI-washing comercial sin sustancia.Preguntas frecuentes
¿Qué hace una agencia de IA en marketing?+
¿Cómo se mide el ROI de la IA en marketing?+
¿Cuánto cuesta una agencia de IA?+
¿Sustituye la IA al equipo de marketing humano?+
¿Qué resultados puedo esperar y en cuánto tiempo?+
¿Cómo saber si una agencia hace IA de verdad o es AI-washing?+
Artículos relacionados
SEO en ChatGPT: por qué tu agencia debería medirlo ya (guía GEO 2026)
El 90% de agencias optimizan tu web para Google. Ninguna mide si ChatGPT o Perplexity te citan. Cómo se hace SEO en LLMs en 2026 (sin AI-washing).
Tecnología e IAFormación en inteligencia artificial para empresas: cursos, gurús y lo que funciona
Cursos oficiales de Google, OpenAI, Anthropic y Microsoft frente a gurús de LinkedIn: qué formación en inteligencia artificial sirve a una empresa y qué es ruido de venta.
Tecnología e IAVibe coding y SaaS con IA: qué se ha democratizado y qué sigue costando igual
Hacer un SaaS con IA en un fin de semana no es tener un producto. Qué ha democratizado de verdad el vibe coding y qué partes del SaaS B2B siguen costando igual que siempre.
