10 consejos para crear agentes telefónicos con VAPI y n8n | Jose Redondo
Automatizaciones IA · VAPI · n8n

10 consejos para crear agentes telefónicos con VAPI y n8n

VAPI proporciona la infraestructura de voz y la IA conversacional. n8n orquesta la lógica de negocio detrás de cada llamada. Juntos permiten construir agentes telefónicos que prospectan, cualifican y agendan sin intervención humana. Estos son los 10 consejos que marcan la diferencia entre un agente que funciona y uno que frustra a los usuarios.

José Redondo Automatizaciones IA · VAPI · n8n Actualizado 2026 15 min de lectura

La combinación que convierte una IA conversacional en un sistema de negocio completo

VAPI resuelve la parte difícil de los agentes de voz: la infraestructura de telefonía, la síntesis de voz en tiempo real, el reconocimiento de habla y la integración con modelos de lenguaje como GPT-4o, Claude o Gemini. Sin VAPI, construir un agente telefónico requiere meses de ingeniería de bajo nivel.

n8n resuelve la otra mitad: la lógica de negocio que convierte una conversación en una acción real. Consultar si un contacto ya ha sido llamado antes de marcar, registrar el resultado de la llamada en Google Sheets, enviar un email de seguimiento automático o actualizar el estado en el CRM. Sin n8n (o un equivalente), el agente habla pero no hace nada.

La potencia real está en la combinación. Un agente VAPI conectado a n8n puede ejecutar flujos de trabajo completos durante y después de cada llamada, integrándose con cualquier herramienta que tenga API. Esto es especialmente valioso en estrategias de marketing orientado a la captación de leads, donde la velocidad de contacto y la cualificación automática tienen un impacto directo en la tasa de conversión.

Los 10 consejos
¿Cuáles son los mejores consejos para crear agentes con VAPI y n8n?
  • 01Diseña el system prompt con rol, objetivo y límites explícitos
  • 02Controla el flujo con estados de conversación explícitos
  • 03Conecta VAPI con n8n mediante webhooks para lógica de negocio
  • 04Integra Google Sheets como base de datos operativa
  • 05Diseña la gestión de errores y silencios desde el principio
  • 06Configura la transferencia de llamada a un humano
  • 07Elige bien el LLM y la voz según el caso de uso
  • 08Testa con grabaciones reales antes de producción
  • 09Controla la latencia: cada segundo cuenta
  • 10Implementa logging completo para depurar y mejorar
VAPI n8n Google Sheets Webhooks LLM ElevenLabs

10 consejos para crear agentes telefónicos con VAPI y n8n

Los tres primeros son prerequisitos de arquitectura. Los demás son optimizaciones que separan un agente funcional de uno realmente efectivo.

01
Prompt

Diseña el system prompt con rol, objetivo y límites explícitos

La calidad del agente es directamente proporcional a la calidad del prompt
CríticoSystem promptLLM

El system prompt es la instrucción base que define el comportamiento del agente en cada llamada. Un prompt mal diseñado produce un agente que se sale del guion, responde preguntas que no debería, improvisa información incorrecta o pierde el hilo de la conversación con facilidad.

Un buen system prompt para un agente VAPI debe incluir: rol explícito ("Eres Carolina, agente de captación de PRECE Canarias…"), objetivo concreto de la llamada (cualificar interés, agendar reunión, confirmar cita), información que SÍ puede compartir y temas que debe evitar o escalar a un humano, tono y registro (formal/informal, tuteando/usteando), y cómo manejar objeciones frecuentes con respuestas predefinidas. Incluye también instrucciones explícitas sobre cómo terminar la llamada en los distintos escenarios posibles.

Consejo práctico: Usa variables dinámicas en el system prompt de VAPI ({"{{nombre}}"}, {"{{empresa}}"}) para personalizar cada llamada con los datos del contacto. Estas variables se sustituyen en tiempo real al iniciar la llamada con los datos que pasas desde n8n.
02
Flujo

Controla el flujo de conversación con estados explícitos

Sin estructura de estados, el LLM improvisa y pierde el objetivo
CríticoEstadosFlujo conversacional

Un error frecuente en agentes VAPI de primer nivel es dejar al LLM fluir libremente sin una estructura clara de qué debe pasar en cada fase de la llamada. El resultado es un agente que puede tener conversaciones interesantes pero raramente alcanza el objetivo de la llamada de forma consistente.

La solución es definir estados explícitos de conversación en el system prompt: apertura (presentación e identificación), cualificación (preguntas específicas para validar el perfil), presentación (propuesta de valor según respuestas), gestión de objeciones, cierre (agendar, confirmar o descartar) y despedida. Instrúyele al agente que debe seguir ese orden y no saltar a fases anteriores sin haber completado la actual.

Truco avanzado: Puedes usar las tools de VAPI para registrar en qué estado está la conversación en tiempo real. Define una tool update_state que el agente llama en n8n cada vez que avanza a un nuevo estado. Esto te da visibilidad total del progreso de cada llamada.
03
Webhooks

Conecta VAPI con n8n mediante webhooks para toda la lógica de negocio

n8n es el cerebro operativo detrás de cada llamada
CríticoTécnicoWebhooksn8n

VAPI envía eventos a tu Server URL (el webhook de n8n) en varios momentos clave: assistant-request (cuando llega una llamada inbound y necesita saber qué asistente usar), tool-calls (cuando el agente invoca una herramienta durante la llamada) y end-of-call-report (cuando termina la llamada con el transcript completo, duración y resumen).

En n8n, construye un único workflow con un nodo Webhook como trigger y un nodo Switch que enruta cada tipo de evento a su rama de procesamiento correspondiente. Así tienes toda la lógica en un solo lugar y evitas la proliferación de workflows difíciles de mantener. Para llamadas outbound, el workflow de n8n es quien llama a la API de VAPI para iniciar la llamada, pasando los datos del contacto como variables del asistente.

Estructura recomendada en n8n:
Webhook → Switch (por tipo de evento) → rama tool-calls → lógica específica de cada tool → respuesta a VAPI
→ rama end-of-call-report → registrar resultado en Sheets → enviar notificación
04
Datos

Integra Google Sheets como base de datos operativa del sistema

El registro de estados evita duplicados y permite escalar sin caos
Alta prioridadGoogle SheetsEstado de filas

Google Sheets es la forma más práctica de gestionar la lista de contactos a llamar en un sistema VAPI + n8n, especialmente en fases de desarrollo y para volúmenes medianos. Cada fila representa un contacto y debe tener columnas para: datos del contacto (nombre, teléfono, empresa), estado de la llamada (pendiente, en proceso, completado, no contesta, descartado), resultado (interesado, no interesado, callback), fecha y hora de la llamada y notas del transcript.

El campo de estado es crítico para evitar llamadas duplicadas. Antes de iniciar cada llamada, el workflow de n8n debe leer el estado de la fila y solo proceder si es "pendiente". Inmediatamente, debe actualizar el estado a "en proceso" antes de llamar a la API de VAPI. Al terminar la llamada, actualiza el estado definitivo con el resultado. Este mecanismo de bloqueo por fila es la protección más robusta contra llamadas duplicadas en sistemas con ejecuciones paralelas.

Error frecuente: No actualizar el estado de la fila a "en proceso" antes de iniciar la llamada. Si el workflow se ejecuta en paralelo para varios contactos, puede leer la misma fila como "pendiente" dos veces y llamar al mismo número dos veces. El bloqueo debe ser la primera operación, antes de cualquier otra lógica.
05
Errores

Diseña la gestión de errores y silencios desde el principio

Un agente que no sabe qué hacer cuando algo falla destroza la experiencia
Alta prioridadGestión de erroresUX de voz

En llamadas telefónicas reales aparecen situaciones que no existen en un chat: silencios largos del usuario, respuestas inaudibles, interrupciones, líneas con ruido de fondo, usuarios que hablan mientras el agente está hablando (barge-in). Si el agente no tiene instrucciones explícitas para estas situaciones, el LLM improvisa y el resultado suele ser confuso para el usuario.

Incluye en el system prompt respuestas para: silencio prolongado ("¿Sigues ahí? ¿Me escuchas bien?"), respuesta incomprensible ("Perdona, no te he escuchado bien, ¿podrías repetirlo?"), pregunta fuera del ámbito del agente (respuesta estándar + transferencia o nota para callback), y usuario que quiere terminar la llamada (cierre limpio sin insistir). También configura en VAPI los parámetros de silenceTimeoutSeconds y maxDurationSeconds para que la llamada no quede abierta indefinidamente si el usuario cuelga sin que VAPI lo detecte.

Parámetros VAPI recomendados: silenceTimeoutSeconds: 10 — si el usuario no responde en 10 segundos, el agente retoma. maxDurationSeconds: 300 — la llamada no puede durar más de 5 minutos sin supervisión.
06
Escalado

Configura siempre la transferencia de llamada a un humano

El agente sabe cuándo no puede más: dale una salida digna
Alta prioridadTransferenciaEscalado humano

Ningún agente telefónico debe existir sin una ruta de salida hacia un humano. Hay casos en que el usuario tiene una necesidad urgente, una queja seria, una pregunta técnica compleja o simplemente prefiere hablar con una persona. Si el agente no puede transferir, o no sabe cuándo hacerlo, la experiencia del usuario termina en frustración.

VAPI permite configurar la transferencia de llamada como una tool que el agente puede invocar cuando detecta que la situación lo requiere. Define en el system prompt los criterios exactos para transferir: usuario muy enfadado, pregunta técnica que el agente no puede responder, usuario que solicita explícitamente hablar con una persona, o caso que requiere verificación de datos sensibles. En n8n, el webhook de transferencia puede además notificar al equipo humano con el contexto de la llamada antes de que el agente conecte.

Configuración en VAPI: Define una tool transfer_call con el número de destino como parámetro. Instrúyele al agente en el prompt que use esta herramienta cuando detecte los criterios definidos, y que informe al usuario antes de transferir: "Voy a pasarte con un compañero que te puede ayudar mejor con esto."
07
Modelo

Elige el modelo LLM y la voz según el caso de uso y el idioma

No todos los modelos son igual de buenos para conversaciones en español
Alta prioridadLLMTTSEspañol

VAPI es compatible con múltiples LLMs (GPT-4o, GPT-4o-mini, Claude Sonnet, Gemini) y múltiples proveedores de voz (ElevenLabs, Deepgram, Cartesia, OpenAI TTS). La elección correcta depende del caso de uso y del idioma.

Para agentes en español de España: GPT-4o ofrece el mejor equilibrio entre calidad de razonamiento y velocidad de respuesta. Para la voz, ElevenLabs tiene las voces en español más naturales, pero añade latencia; Cartesia es más rápido aunque con menos variedad. Para casos donde la latencia es crítica (conversaciones muy fluidas), considera GPT-4o-mini o Gemini Flash como LLM y Deepgram o Cartesia como voz. Testa siempre con llamadas reales: la calidad percibida de una voz depende mucho del contexto de la conversación y del ruido de fondo típico de las llamadas móviles.

Combinación recomendada para español España: LLM: gpt-4o · STT: deepgram/nova-2 · TTS: elevenlabs (voz personalizada) o cartesia (menor latencia). Ajusta según el balance latencia/calidad que necesites.
08
Testing

Testa con grabaciones reales antes de lanzar en producción

El agente que funciona bien en el dashboard puede fallar en una llamada real
Alta prioridadTestingGrabacionesTranscripts

El entorno de prueba de VAPI es muy útil, pero hay problemas que solo aparecen en llamadas reales: el agente habla demasiado rápido, el reconocimiento de voz falla con ciertos acentos o en entornos ruidosos, la latencia es mayor de lo esperado en producción, o el LLM interpreta mal una respuesta ambigua que los testers no habían anticipado.

Antes de lanzar, realiza al menos 20-30 llamadas de prueba reales con diferentes perfiles de usuario: alguien que responde fluidamente, alguien que hace preguntas fuera del guion, alguien con acento diferente, alguien que responde con monosílabos, alguien que interrumpe frecuentemente. Escucha las grabaciones completas (no solo el transcript), identifica los puntos de fricción y refina el prompt en consecuencia. El 80% de las mejoras al prompt vienen de escuchar llamadas reales.

Metodología de mejora: Escucha la grabación → identifica el turno donde el agente falla → analiza el transcript en ese punto → añade una instrucción explícita en el prompt para ese escenario concreto → repite hasta que el agente lo maneje correctamente en 3 llamadas consecutivas.
09
Latencia

Controla la latencia: cada segundo de pausa extra destruye la naturalidad

Una conversación telefónica tolera mucho menos latencia que un chat
OptimizaciónLatenciaUX

En una conversación de chat, una respuesta que tarda 3 segundos es perfectamente aceptable. En una llamada telefónica, el mismo retraso resulta en silencios incómodos que hacen que el usuario pregunte "¿Hola? ¿Estás ahí?" o directamente cuelgue pensando que se ha cortado la llamada.

Las fuentes de latencia en un sistema VAPI + n8n son: STT (reconocimiento de voz), LLM (tiempo de respuesta del modelo), TTS (síntesis de voz), y tool calls (tiempo de respuesta del webhook de n8n). Las tool calls son a menudo la mayor fuente de latencia inesperada: si tu workflow de n8n tarda 2-3 segundos en responder, el agente estará en silencio ese tiempo. Optimiza los workflows de n8n que responden tool calls para que sean lo más rápidos posible: evita operaciones encadenadas innecesarias y usa nodos de caché cuando sea posible.

Objetivo de latencia: El tiempo total desde que el usuario termina de hablar hasta que el agente empieza a responder debe ser inferior a 1,5 segundos para una experiencia natural. Usa el dashboard de VAPI para monitorizar la latencia de cada componente y detectar cuellos de botella.
10
Logging

Implementa logging completo para depurar y mejorar el agente con el tiempo

Lo que no mides no puedes mejorar: aplica esto al comportamiento del agente
OptimizaciónLoggingAnalítica

VAPI proporciona grabaciones, transcripts y el end-of-call-report con el resumen de cada llamada. n8n puede procesar toda esa información y almacenarla de forma estructurada para su análisis. Un sistema de logging bien diseñado permite identificar qué preguntas hacen más los usuarios, en qué punto de la conversación se producen más abandonos, qué objeciones son más frecuentes y cuál es la tasa de éxito real del agente.

Como mínimo, registra en Google Sheets (o en una base de datos más robusta si el volumen lo justifica): ID de llamada, duración, estado final (completado, no contesta, transferido, cortado), resultado de negocio (interesado, no interesado, callback solicitado), resumen generado por el LLM y enlace a la grabación. Con estos datos puedes hacer revisiones semanales del rendimiento del agente y tomar decisiones de mejora basadas en datos reales, no en intuición.

Automatización de mejora continua: Configura en n8n un workflow semanal que lee los resultados de la semana desde Google Sheets, calcula la tasa de conversión del agente, identifica las llamadas con peor resultado y genera un resumen automático para revisar. La mejora del agente es un proceso continuo, no un evento puntual.

Para qué usar agentes telefónicos con VAPI y n8n

Los escenarios donde la combinación VAPI + n8n tiene mayor retorno sobre la inversión.

📞

Prospección y cualificación outbound

Llamadas automáticas a listas de contactos para cualificar el interés, detectar el perfil adecuado y agendar reuniones con el equipo de ventas. El agente llama, cualifica y registra el resultado sin intervención humana.

📅

Confirmación y recordatorio de citas

Llamadas automáticas 24-48 horas antes de una cita para confirmar la asistencia, reprogramar si es necesario y reducir el no-show. Integración directa con el calendario vía n8n.

Encuestas de satisfacción post-servicio

Llamadas automáticas tras la prestación de un servicio para recoger feedback estructurado. Los resultados se registran en Google Sheets o CRM para análisis posterior.

🔄

Reactivación de leads fríos

Llamadas a contactos que no han respondido a emails o que llevan tiempo sin actividad. El agente retoma el contacto, actualiza el estado de interés y pasa los calientes al equipo humano.

🛒

Recuperación de carritos abandonados

Para e-commerce con ticket alto, una llamada personalizada tiene una tasa de recuperación muy superior al email. El agente llama, identifica la objeción y ofrece una solución.

🎓

Captación para formación y eventos

Llamadas a listas de leads interesados en programas formativos o eventos, para resolver dudas frecuentes, informar de plazos y redirigir a la inscripción. Caso de uso probado en programas con financiación pública.

Cómo crear un agente telefónico con VAPI y n8n desde cero

01
Setup

Crea el asistente en VAPI y define el system prompt

Entra en dashboard.vapi.ai, crea un nuevo asistente y configura: el LLM (recomendado GPT-4o para español), el proveedor de voz (ElevenLabs o Cartesia), el idioma (es-ES) y el system prompt inicial. Define el rol, el objetivo, el tono y los límites del agente. Añade variables dinámicas ({"{{nombre}}"}, {"{{empresa}}"}) que n8n rellenará al iniciar cada llamada con los datos del contacto.

02
Integración

Configura el webhook de n8n como Server URL del asistente

En n8n, crea un workflow con un nodo Webhook (método POST) y copia la URL del webhook. En VAPI, en la configuración del asistente, pégala como Server URL. Activa los eventos que quieres recibir: end-of-call-report como mínimo, y tool-calls si vas a usar herramientas. Testa la conexión desde el dashboard de VAPI haciendo una llamada de prueba y verificando que el evento llega correctamente al webhook de n8n.

03
Lógica

Construye el workflow de n8n para procesar eventos y actualizar Sheets

Añade al workflow un nodo Switch que enruta por el campo message.type del payload de VAPI. Crea una rama para end-of-call-report: extrae el resultado del resumen, actualiza el estado de la fila en Google Sheets y envía una notificación si el resultado es positivo. Crea ramas para cada tool-call que hayas definido en VAPI: consulta la información solicitada y devuelve la respuesta en el formato que VAPI espera.

04
Outbound

Crea el workflow de n8n que inicia las llamadas outbound

Crea un segundo workflow en n8n con un trigger programado (cron) o manual. Lee las filas de Google Sheets con estado "pendiente", actualiza cada una a "en proceso" antes de llamar, y llama a la API de VAPI (POST /call) pasando el número del contacto, el ID del asistente y las variables dinámicas del contacto. Gestiona los errores de la API (número inválido, límite de llamadas simultáneas) y registra el error en la columna correspondiente de Sheets.

05
Optimización

Testa con llamadas reales, analiza grabaciones y itera el prompt

Realiza 20-30 llamadas de prueba con perfiles variados. Accede a las grabaciones desde el dashboard de VAPI o desde Google Sheets si las has registrado vía n8n. Escucha cada llamada completa identificando los puntos de fricción. Refina el system prompt añadiendo instrucciones explícitas para los escenarios problemáticos detectados. Repite hasta alcanzar una tasa de éxito estable. Documenta los cambios del prompt con fecha para poder revertir si una modificación empeora el rendimiento.

Lo que más preguntan sobre agentes telefónicos con VAPI y n8n

¿Qué es VAPI y para qué sirve?
VAPI es una plataforma de infraestructura de voz para agentes de IA que permite crear, desplegar y escalar agentes telefónicos basados en LLMs. Proporciona la capa de telefonía (números de teléfono, gestión de llamadas entrantes y salientes), síntesis de voz en tiempo real (TTS), reconocimiento de habla (STT) e integración con el LLM de elección. Se conecta con herramientas de automatización como n8n mediante webhooks para ejecutar lógica de negocio durante y después de las llamadas: actualizar bases de datos, enviar notificaciones, agendar citas o registrar resultados.
¿Qué es n8n y por qué combinarlo con VAPI?
n8n es una plataforma de automatización de flujos de trabajo de código abierto que permite conectar aplicaciones y APIs sin programar desde cero. La combinación con VAPI es muy potente porque n8n actúa como el motor de lógica de negocio detrás del agente telefónico: recibe los webhooks de VAPI con los datos de la llamada, consulta o actualiza Google Sheets o un CRM, ejecuta condiciones lógicas, envía notificaciones y devuelve respuestas dinámicas al agente en tiempo real. Sin n8n, el agente de voz puede conversar pero no puede actuar sobre los sistemas de negocio.
¿Cuánto cuesta usar VAPI para crear agentes de voz?
VAPI cobra por minuto de llamada procesada, con tarifas que en 2026 oscilan alrededor de 0,05-0,10 dólares por minuto de conversación, dependiendo del LLM elegido, el proveedor de voz y el volumen. A esto se suma el coste del número de teléfono y, en algunos casos, la telefonía. n8n puede usarse en self-hosted de forma gratuita o en cloud desde unos 20 euros al mes. Para casos de uso con volumen significativo de llamadas, el coste operativo total es considerablemente inferior al de agentes humanos haciendo el mismo trabajo.
¿Qué casos de uso son más adecuados para agentes VAPI + n8n?
Los casos de uso más efectivos son aquellos con flujos predecibles y repetitivos: prospección y cualificación outbound, confirmación de citas, encuestas de satisfacción post-servicio, recuperación de leads fríos, recuperación de carritos abandonados y captación para programas de formación o eventos. Son menos adecuados para situaciones que requieren razonamiento complejo, negociación avanzada o acceso a información muy variable y no estructurada. En esos casos, el agente debe detectar la situación y transferir a un humano.
¿Cómo evitar llamadas duplicadas en un sistema outbound con n8n?
El mecanismo más robusto es el bloqueo por estado de fila en Google Sheets: antes de iniciar la llamada, el workflow de n8n actualiza el estado de la fila a "en proceso". Solo lee filas con estado "pendiente", y la actualización de estado es la primera operación del workflow, antes de llamar a la API de VAPI. Al terminar la llamada, el webhook end-of-call-report actualiza el estado definitivo. Si el workflow se ejecuta en paralelo para varios contactos, cada fila solo puede estar en "en proceso" para una ejecución a la vez, eliminando el riesgo de llamadas duplicadas.
¿Qué diferencia hay entre un agente VAPI outbound e inbound?
Un agente outbound inicia las llamadas: se activa a partir de un trigger en n8n (programación horaria, evento en CRM, nueva fila en Google Sheets) y llama al número del contacto con los datos del mismo ya disponibles. Un agente inbound recibe llamadas: responde cuando alguien llama al número asignado al asistente, sin datos previos del usuario hasta que se identifica en la conversación. Técnicamente, la configuración del asistente en VAPI es muy similar en ambos casos; la diferencia principal está en cómo se activa la llamada y en el contexto inicial disponible para el agente.
Automatizaciones IA · VAPI · n8n · joseredondo.es

¿Quieres implementar un agente telefónico para tu negocio?

Diseño, desarrollo e implementación de agentes de voz con VAPI y n8n: prospección outbound, cualificación de leads, confirmación de citas y atención inbound. Integración con Google Sheets, CRMs y cualquier herramienta con API en el mercado español.

Agenda una llamada →