10 consejos para crear agentes telefónicos con VAPI y n8n
VAPI proporciona la infraestructura de voz y la IA conversacional. n8n orquesta la lógica de negocio detrás de cada llamada. Juntos permiten construir agentes telefónicos que prospectan, cualifican y agendan sin intervención humana. Estos son los 10 consejos que marcan la diferencia entre un agente que funciona y uno que frustra a los usuarios.
La combinación que convierte una IA conversacional en un sistema de negocio completo
VAPI resuelve la parte difícil de los agentes de voz: la infraestructura de telefonía, la síntesis de voz en tiempo real, el reconocimiento de habla y la integración con modelos de lenguaje como GPT-4o, Claude o Gemini. Sin VAPI, construir un agente telefónico requiere meses de ingeniería de bajo nivel.
n8n resuelve la otra mitad: la lógica de negocio que convierte una conversación en una acción real. Consultar si un contacto ya ha sido llamado antes de marcar, registrar el resultado de la llamada en Google Sheets, enviar un email de seguimiento automático o actualizar el estado en el CRM. Sin n8n (o un equivalente), el agente habla pero no hace nada.
La potencia real está en la combinación. Un agente VAPI conectado a n8n puede ejecutar flujos de trabajo completos durante y después de cada llamada, integrándose con cualquier herramienta que tenga API. Esto es especialmente valioso en estrategias de marketing orientado a la captación de leads, donde la velocidad de contacto y la cualificación automática tienen un impacto directo en la tasa de conversión.
- 01Diseña el system prompt con rol, objetivo y límites explícitos
- 02Controla el flujo con estados de conversación explícitos
- 03Conecta VAPI con n8n mediante webhooks para lógica de negocio
- 04Integra Google Sheets como base de datos operativa
- 05Diseña la gestión de errores y silencios desde el principio
- 06Configura la transferencia de llamada a un humano
- 07Elige bien el LLM y la voz según el caso de uso
- 08Testa con grabaciones reales antes de producción
- 09Controla la latencia: cada segundo cuenta
- 10Implementa logging completo para depurar y mejorar
10 consejos para crear agentes telefónicos con VAPI y n8n
Los tres primeros son prerequisitos de arquitectura. Los demás son optimizaciones que separan un agente funcional de uno realmente efectivo.
Diseña el system prompt con rol, objetivo y límites explícitos
El system prompt es la instrucción base que define el comportamiento del agente en cada llamada. Un prompt mal diseñado produce un agente que se sale del guion, responde preguntas que no debería, improvisa información incorrecta o pierde el hilo de la conversación con facilidad.
Un buen system prompt para un agente VAPI debe incluir: rol explícito ("Eres Carolina, agente de captación de PRECE Canarias…"), objetivo concreto de la llamada (cualificar interés, agendar reunión, confirmar cita), información que SÍ puede compartir y temas que debe evitar o escalar a un humano, tono y registro (formal/informal, tuteando/usteando), y cómo manejar objeciones frecuentes con respuestas predefinidas. Incluye también instrucciones explícitas sobre cómo terminar la llamada en los distintos escenarios posibles.
{"{{nombre}}"}, {"{{empresa}}"}) para personalizar cada llamada con los datos del contacto. Estas variables se sustituyen en tiempo real al iniciar la llamada con los datos que pasas desde n8n.Controla el flujo de conversación con estados explícitos
Un error frecuente en agentes VAPI de primer nivel es dejar al LLM fluir libremente sin una estructura clara de qué debe pasar en cada fase de la llamada. El resultado es un agente que puede tener conversaciones interesantes pero raramente alcanza el objetivo de la llamada de forma consistente.
La solución es definir estados explícitos de conversación en el system prompt: apertura (presentación e identificación), cualificación (preguntas específicas para validar el perfil), presentación (propuesta de valor según respuestas), gestión de objeciones, cierre (agendar, confirmar o descartar) y despedida. Instrúyele al agente que debe seguir ese orden y no saltar a fases anteriores sin haber completado la actual.
update_state que el agente llama en n8n cada vez que avanza a un nuevo estado. Esto te da visibilidad total del progreso de cada llamada.Conecta VAPI con n8n mediante webhooks para toda la lógica de negocio
VAPI envía eventos a tu Server URL (el webhook de n8n) en varios momentos clave: assistant-request (cuando llega una llamada inbound y necesita saber qué asistente usar), tool-calls (cuando el agente invoca una herramienta durante la llamada) y end-of-call-report (cuando termina la llamada con el transcript completo, duración y resumen).
En n8n, construye un único workflow con un nodo Webhook como trigger y un nodo Switch que enruta cada tipo de evento a su rama de procesamiento correspondiente. Así tienes toda la lógica en un solo lugar y evitas la proliferación de workflows difíciles de mantener. Para llamadas outbound, el workflow de n8n es quien llama a la API de VAPI para iniciar la llamada, pasando los datos del contacto como variables del asistente.
Webhook → Switch (por tipo de evento) → rama tool-calls → lógica específica de cada tool → respuesta a VAPI
→ rama end-of-call-report → registrar resultado en Sheets → enviar notificación
Integra Google Sheets como base de datos operativa del sistema
Google Sheets es la forma más práctica de gestionar la lista de contactos a llamar en un sistema VAPI + n8n, especialmente en fases de desarrollo y para volúmenes medianos. Cada fila representa un contacto y debe tener columnas para: datos del contacto (nombre, teléfono, empresa), estado de la llamada (pendiente, en proceso, completado, no contesta, descartado), resultado (interesado, no interesado, callback), fecha y hora de la llamada y notas del transcript.
El campo de estado es crítico para evitar llamadas duplicadas. Antes de iniciar cada llamada, el workflow de n8n debe leer el estado de la fila y solo proceder si es "pendiente". Inmediatamente, debe actualizar el estado a "en proceso" antes de llamar a la API de VAPI. Al terminar la llamada, actualiza el estado definitivo con el resultado. Este mecanismo de bloqueo por fila es la protección más robusta contra llamadas duplicadas en sistemas con ejecuciones paralelas.
Diseña la gestión de errores y silencios desde el principio
En llamadas telefónicas reales aparecen situaciones que no existen en un chat: silencios largos del usuario, respuestas inaudibles, interrupciones, líneas con ruido de fondo, usuarios que hablan mientras el agente está hablando (barge-in). Si el agente no tiene instrucciones explícitas para estas situaciones, el LLM improvisa y el resultado suele ser confuso para el usuario.
Incluye en el system prompt respuestas para: silencio prolongado ("¿Sigues ahí? ¿Me escuchas bien?"), respuesta incomprensible ("Perdona, no te he escuchado bien, ¿podrías repetirlo?"), pregunta fuera del ámbito del agente (respuesta estándar + transferencia o nota para callback), y usuario que quiere terminar la llamada (cierre limpio sin insistir). También configura en VAPI los parámetros de silenceTimeoutSeconds y maxDurationSeconds para que la llamada no quede abierta indefinidamente si el usuario cuelga sin que VAPI lo detecte.
silenceTimeoutSeconds: 10 — si el usuario no responde en 10 segundos, el agente retoma. maxDurationSeconds: 300 — la llamada no puede durar más de 5 minutos sin supervisión.Configura siempre la transferencia de llamada a un humano
Ningún agente telefónico debe existir sin una ruta de salida hacia un humano. Hay casos en que el usuario tiene una necesidad urgente, una queja seria, una pregunta técnica compleja o simplemente prefiere hablar con una persona. Si el agente no puede transferir, o no sabe cuándo hacerlo, la experiencia del usuario termina en frustración.
VAPI permite configurar la transferencia de llamada como una tool que el agente puede invocar cuando detecta que la situación lo requiere. Define en el system prompt los criterios exactos para transferir: usuario muy enfadado, pregunta técnica que el agente no puede responder, usuario que solicita explícitamente hablar con una persona, o caso que requiere verificación de datos sensibles. En n8n, el webhook de transferencia puede además notificar al equipo humano con el contexto de la llamada antes de que el agente conecte.
transfer_call con el número de destino como parámetro. Instrúyele al agente en el prompt que use esta herramienta cuando detecte los criterios definidos, y que informe al usuario antes de transferir: "Voy a pasarte con un compañero que te puede ayudar mejor con esto."Elige el modelo LLM y la voz según el caso de uso y el idioma
VAPI es compatible con múltiples LLMs (GPT-4o, GPT-4o-mini, Claude Sonnet, Gemini) y múltiples proveedores de voz (ElevenLabs, Deepgram, Cartesia, OpenAI TTS). La elección correcta depende del caso de uso y del idioma.
Para agentes en español de España: GPT-4o ofrece el mejor equilibrio entre calidad de razonamiento y velocidad de respuesta. Para la voz, ElevenLabs tiene las voces en español más naturales, pero añade latencia; Cartesia es más rápido aunque con menos variedad. Para casos donde la latencia es crítica (conversaciones muy fluidas), considera GPT-4o-mini o Gemini Flash como LLM y Deepgram o Cartesia como voz. Testa siempre con llamadas reales: la calidad percibida de una voz depende mucho del contexto de la conversación y del ruido de fondo típico de las llamadas móviles.
gpt-4o · STT: deepgram/nova-2 · TTS: elevenlabs (voz personalizada) o cartesia (menor latencia). Ajusta según el balance latencia/calidad que necesites.Testa con grabaciones reales antes de lanzar en producción
El entorno de prueba de VAPI es muy útil, pero hay problemas que solo aparecen en llamadas reales: el agente habla demasiado rápido, el reconocimiento de voz falla con ciertos acentos o en entornos ruidosos, la latencia es mayor de lo esperado en producción, o el LLM interpreta mal una respuesta ambigua que los testers no habían anticipado.
Antes de lanzar, realiza al menos 20-30 llamadas de prueba reales con diferentes perfiles de usuario: alguien que responde fluidamente, alguien que hace preguntas fuera del guion, alguien con acento diferente, alguien que responde con monosílabos, alguien que interrumpe frecuentemente. Escucha las grabaciones completas (no solo el transcript), identifica los puntos de fricción y refina el prompt en consecuencia. El 80% de las mejoras al prompt vienen de escuchar llamadas reales.
Controla la latencia: cada segundo de pausa extra destruye la naturalidad
En una conversación de chat, una respuesta que tarda 3 segundos es perfectamente aceptable. En una llamada telefónica, el mismo retraso resulta en silencios incómodos que hacen que el usuario pregunte "¿Hola? ¿Estás ahí?" o directamente cuelgue pensando que se ha cortado la llamada.
Las fuentes de latencia en un sistema VAPI + n8n son: STT (reconocimiento de voz), LLM (tiempo de respuesta del modelo), TTS (síntesis de voz), y tool calls (tiempo de respuesta del webhook de n8n). Las tool calls son a menudo la mayor fuente de latencia inesperada: si tu workflow de n8n tarda 2-3 segundos en responder, el agente estará en silencio ese tiempo. Optimiza los workflows de n8n que responden tool calls para que sean lo más rápidos posible: evita operaciones encadenadas innecesarias y usa nodos de caché cuando sea posible.
Implementa logging completo para depurar y mejorar el agente con el tiempo
VAPI proporciona grabaciones, transcripts y el end-of-call-report con el resumen de cada llamada. n8n puede procesar toda esa información y almacenarla de forma estructurada para su análisis. Un sistema de logging bien diseñado permite identificar qué preguntas hacen más los usuarios, en qué punto de la conversación se producen más abandonos, qué objeciones son más frecuentes y cuál es la tasa de éxito real del agente.
Como mínimo, registra en Google Sheets (o en una base de datos más robusta si el volumen lo justifica): ID de llamada, duración, estado final (completado, no contesta, transferido, cortado), resultado de negocio (interesado, no interesado, callback solicitado), resumen generado por el LLM y enlace a la grabación. Con estos datos puedes hacer revisiones semanales del rendimiento del agente y tomar decisiones de mejora basadas en datos reales, no en intuición.
Para qué usar agentes telefónicos con VAPI y n8n
Los escenarios donde la combinación VAPI + n8n tiene mayor retorno sobre la inversión.
Prospección y cualificación outbound
Llamadas automáticas a listas de contactos para cualificar el interés, detectar el perfil adecuado y agendar reuniones con el equipo de ventas. El agente llama, cualifica y registra el resultado sin intervención humana.
Confirmación y recordatorio de citas
Llamadas automáticas 24-48 horas antes de una cita para confirmar la asistencia, reprogramar si es necesario y reducir el no-show. Integración directa con el calendario vía n8n.
Encuestas de satisfacción post-servicio
Llamadas automáticas tras la prestación de un servicio para recoger feedback estructurado. Los resultados se registran en Google Sheets o CRM para análisis posterior.
Reactivación de leads fríos
Llamadas a contactos que no han respondido a emails o que llevan tiempo sin actividad. El agente retoma el contacto, actualiza el estado de interés y pasa los calientes al equipo humano.
Recuperación de carritos abandonados
Para e-commerce con ticket alto, una llamada personalizada tiene una tasa de recuperación muy superior al email. El agente llama, identifica la objeción y ofrece una solución.
Captación para formación y eventos
Llamadas a listas de leads interesados en programas formativos o eventos, para resolver dudas frecuentes, informar de plazos y redirigir a la inscripción. Caso de uso probado en programas con financiación pública.
Cómo crear un agente telefónico con VAPI y n8n desde cero
Crea el asistente en VAPI y define el system prompt
Entra en dashboard.vapi.ai, crea un nuevo asistente y configura: el LLM (recomendado GPT-4o para español), el proveedor de voz (ElevenLabs o Cartesia), el idioma (es-ES) y el system prompt inicial. Define el rol, el objetivo, el tono y los límites del agente. Añade variables dinámicas ({"{{nombre}}"}, {"{{empresa}}"}) que n8n rellenará al iniciar cada llamada con los datos del contacto.
Configura el webhook de n8n como Server URL del asistente
En n8n, crea un workflow con un nodo Webhook (método POST) y copia la URL del webhook. En VAPI, en la configuración del asistente, pégala como Server URL. Activa los eventos que quieres recibir: end-of-call-report como mínimo, y tool-calls si vas a usar herramientas. Testa la conexión desde el dashboard de VAPI haciendo una llamada de prueba y verificando que el evento llega correctamente al webhook de n8n.
Construye el workflow de n8n para procesar eventos y actualizar Sheets
Añade al workflow un nodo Switch que enruta por el campo message.type del payload de VAPI. Crea una rama para end-of-call-report: extrae el resultado del resumen, actualiza el estado de la fila en Google Sheets y envía una notificación si el resultado es positivo. Crea ramas para cada tool-call que hayas definido en VAPI: consulta la información solicitada y devuelve la respuesta en el formato que VAPI espera.
Crea el workflow de n8n que inicia las llamadas outbound
Crea un segundo workflow en n8n con un trigger programado (cron) o manual. Lee las filas de Google Sheets con estado "pendiente", actualiza cada una a "en proceso" antes de llamar, y llama a la API de VAPI (POST /call) pasando el número del contacto, el ID del asistente y las variables dinámicas del contacto. Gestiona los errores de la API (número inválido, límite de llamadas simultáneas) y registra el error en la columna correspondiente de Sheets.
Testa con llamadas reales, analiza grabaciones y itera el prompt
Realiza 20-30 llamadas de prueba con perfiles variados. Accede a las grabaciones desde el dashboard de VAPI o desde Google Sheets si las has registrado vía n8n. Escucha cada llamada completa identificando los puntos de fricción. Refina el system prompt añadiendo instrucciones explícitas para los escenarios problemáticos detectados. Repite hasta alcanzar una tasa de éxito estable. Documenta los cambios del prompt con fecha para poder revertir si una modificación empeora el rendimiento.
Lo que más preguntan sobre agentes telefónicos con VAPI y n8n
end-of-call-report actualiza el estado definitivo. Si el workflow se ejecuta en paralelo para varios contactos, cada fila solo puede estar en "en proceso" para una ejecución a la vez, eliminando el riesgo de llamadas duplicadas.
¿Quieres implementar un agente telefónico para tu negocio?
Diseño, desarrollo e implementación de agentes de voz con VAPI y n8n: prospección outbound, cualificación de leads, confirmación de citas y atención inbound. Integración con Google Sheets, CRMs y cualquier herramienta con API en el mercado español.