语音通话(插件)

语音通话(插件)

适用范围

在以下情况使用本页:

  • 您想从 Clawdbot 拨打语音电话
  • 您正在配置或开发 voice-call 插件

通过插件为 Clawdbot 提供语音通话功能。支持出站通知和具有入站策略的多轮对话。

当前提供商:

  • twilio(可编程语音 + 媒体流)
  • telnyx(呼叫控制 v2)
  • plivo(语音 API + XML 传输 + GetInput 语音)
  • mock(开发/无网络)

快速心理模型:

  • 安装插件
  • 重启 Gateway
  • plugins.entries.voice-call.config 下配置
  • 使用 clawdbot voicecall ...voice_call 工具

运行位置(本地 vs 远程)

语音通话插件在 Gateway 进程内部运行。

如果您使用远程 Gateway,请在运行 Gateway 的机器上安装/配置插件,然后重启 Gateway 以加载它。

安装

选项 A:从 npm 安装(推荐)

clawdbot plugins install @clawdbot/voice-call

之后重启 Gateway。

选项 B:从本地文件夹安装(开发,不复制)

clawdbot plugins install ./extensions/voice-call
cd ./extensions/voice-call && pnpm install

之后重启 Gateway。

配置

plugins.entries.voice-call.config 下设置配置:

{
  plugins: {
    entries: {
      "voice-call": {
        enabled: true,
        config: {
          provider: "twilio", // or "telnyx" | "plivo" | "mock"
          fromNumber: "+15550001234",
          toNumber: "+15550005678",

          twilio: {
            accountSid: "ACxxxxxxxx",
            authToken: "..."
          },

          plivo: {
            authId: "MAxxxxxxxxxxxxxxxxxxxx",
            authToken: "..."
          },

          // Webhook 服务器
          serve: {
            port: 3334,
            path: "/voice/webhook"
          },

          // 公开暴露(选择一个)
          // publicUrl: "https://example.ngrok.app/voice/webhook",
          // tunnel: { provider: "ngrok" },
          // tailscale: { mode: "funnel", path: "/voice/webhook" }

          outbound: {
            defaultMode: "notify" // notify | conversation
          },

          streaming: {
            enabled: true,
            streamPath: "/voice/stream"
          }
        }
      }
    }
  }
}

注意事项:

  • Twilio/Telnyx 需要公开可访问的 webhook URL。
  • Plivo 需要公开可访问的 webhook URL。
  • mock 是一个本地开发提供商(无网络调用)。
  • skipSignatureVerification 仅用于本地测试。

通话的 TTS

语音通话使用核心 messages.tts 配置(OpenAI 或 ElevenLabs)进行通话中的流式语音。您可以在插件配置下以相同的形式覆盖它 — 它与 messages.tts 深度合并。

{
  tts: {
    provider: "elevenlabs",
    elevenlabs: {
      voiceId: "pMsXgVXv3BLzUgSXRplE",
      modelId: "eleven_multilingual_v2"
    }
  }
}

注意事项:

  • Edge TTS 在语音通话中被忽略(电话音频需要 PCM;Edge 输出不可靠)。
  • 当启用 Twilio 媒体流时使用核心 TTS;否则通话回退到提供商原生语音。

更多示例

仅使用核心 TTS(无覆盖):

{
  messages: {
    tts: {
      provider: "openai",
      openai: { voice: "alloy" }
    }
  }
}

仅针对通话覆盖为 ElevenLabs(在其他地方保留核心默认值):

{
  plugins: {
    entries: {
      "voice-call": {
        config: {
          tts: {
            provider: "elevenlabs",
            elevenlabs: {
              apiKey: "elevenlabs_key",
              voiceId: "pMsXgVXv3BLzUgSXRplE",
              modelId: "eleven_multilingual_v2"
            }
          }
        }
      }
    }
  }
}

仅针对通话覆盖 OpenAI 模型(深度合并示例):

{
  plugins: {
    entries: {
      "voice-call": {
        config: {
          tts: {
            openai: {
              model: "gpt-4o-mini-tts",
              voice: "marin"
            }
          }
        }
      }
    }
  }
}

入站通话

入站策略默认为 disabled。要启用入站通话,请设置:

{
  inboundPolicy: "allowlist",
  allowFrom: ["+15550001234"],
  inboundGreeting: "Hello! How can I help?"
}

自动响应使用 agent 系统。使用以下参数调整:

  • responseModel
  • responseSystemPrompt
  • responseTimeoutMs

CLI

clawdbot voicecall call --to "+15555550123" --message "Hello from Clawdbot"
clawdbot voicecall continue --call-id <id> --message "Any questions?"
clawdbot voicecall speak --call-id <id> --message "One moment"
clawdbot voicecall end --call-id <id>
clawdbot voicecall status --call-id <id>
clawdbot voicecall tail
clawdbot voicecall expose --mode funnel

Agent 工具

工具名称:voice_call

操作:

  • initiate_call(消息、to?、mode?)
  • continue_call(callId、消息)
  • speak_to_user(callId、消息)
  • end_call(callId)
  • get_status(callId)

此仓库在 skills/voice-call/SKILL.md 处提供了匹配的技能文档。

Gateway RPC

  • voicecall.initiateto?messagemode?
  • voicecall.continuecallIdmessage
  • voicecall.speakcallIdmessage
  • voicecall.endcallId
  • voicecall.statuscallId