From 9f6e1a925826976ada50ccb2751eb7fa959facd1 Mon Sep 17 00:00:00 2001
From: zhangmo8 <wegi866@gmail.com>
Date: Tue, 20 Jan 2026 12:31:08 +0800
Subject: [PATCH 1/4] feat: voice ai text to speech

---
 .../presenter/configPresenter/providers.ts    |  15 +
 .../managers/providerInstanceManager.ts       |   3 +
 .../providers/voiceAIProvider.ts              | 469 ++++++++++++++++++
 .../ModelProviderSettingsDetail.vue           |   5 +
 .../components/VoiceAIProviderConfig.vue      | 204 ++++++++
 src/renderer/src/assets/llm-icons/voiceai.svg |  11 +
 .../src/components/icons/ModelIcon.vue        |   2 +
 .../components/message/MessageBlockAudio.vue  | 112 +++++
 .../message/MessageItemAssistant.vue          |  23 +
 .../components/settings/ModelConfigDialog.vue |   3 +-
 src/renderer/src/i18n/en-US/settings.json     |  27 +
 src/renderer/src/i18n/zh-CN/settings.json     |  27 +
 src/renderer/src/stores/chat.ts               |   7 +-
 src/renderer/src/stores/providerStore.ts      |  40 +-
 src/shared/chat.d.ts                          |   1 +
 src/shared/types/core/chat.ts                 |   1 +
 16 files changed, 946 insertions(+), 4 deletions(-)
 create mode 100644 src/main/presenter/llmProviderPresenter/providers/voiceAIProvider.ts
 create mode 100644 src/renderer/settings/components/VoiceAIProviderConfig.vue
 create mode 100644 src/renderer/src/assets/llm-icons/voiceai.svg
 create mode 100644 src/renderer/src/components/message/MessageBlockAudio.vue

diff --git a/src/main/presenter/configPresenter/providers.ts b/src/main/presenter/configPresenter/providers.ts
index a6cf6ec77..db04a89d4 100644
--- a/src/main/presenter/configPresenter/providers.ts
+++ b/src/main/presenter/configPresenter/providers.ts
@@ -217,6 +217,21 @@ export const DEFAULT_PROVIDERS: LLM_PROVIDER_BASE[] = [
       defaultBaseUrl: 'https://api.openai.com/v1'
     }
   },
+  {
+    id: 'voiceai',
+    name: 'Voice.ai',
+    apiType: 'voiceai',
+    apiKey: '',
+    baseUrl: 'https://dev.voice.ai',
+    enable: false,
+    websites: {
+      official: 'https://voice.ai/',
+      apiKey: 'https://voice.ai/app/dashboard/developers',
+      docs: 'https://voice.ai/docs/introduction',
+      models: 'https://voice.ai/docs/api-reference/text-to-speech/list-voices',
+      defaultBaseUrl: 'https://dev.voice.ai'
+    }
+  },
   {
     id: 'gemini',
     name: 'Gemini',
diff --git a/src/main/presenter/llmProviderPresenter/managers/providerInstanceManager.ts b/src/main/presenter/llmProviderPresenter/managers/providerInstanceManager.ts
index f55260155..0aed25228 100644
--- a/src/main/presenter/llmProviderPresenter/managers/providerInstanceManager.ts
+++ b/src/main/presenter/llmProviderPresenter/managers/providerInstanceManager.ts
@@ -35,6 +35,7 @@ import { PoeProvider } from '../providers/poeProvider'
 import { JiekouProvider } from '../providers/jiekouProvider'
 import { ZenmuxProvider } from '../providers/zenmuxProvider'
 import { O3fanProvider } from '../providers/o3fanProvider'
+import { VoiceAIProvider } from '../providers/voiceAIProvider'
 import { RateLimitManager } from './rateLimitManager'
 import { StreamState } from '../types'
 import { AcpSessionPersistence } from '../../agentPresenter/acp'
@@ -86,6 +87,7 @@ export class ProviderInstanceManager {
       ['anthropic', AnthropicProvider],
       ['doubao', DoubaoProvider],
       ['openai', OpenAIProvider],
+      ['voiceai', VoiceAIProvider],
       ['openai-responses', OpenAIResponsesProvider],
       ['cherryin', CherryInProvider],
       ['lmstudio', LMStudioProvider],
@@ -118,6 +120,7 @@ export class ProviderInstanceManager {
       ['anthropic', AnthropicProvider],
       ['doubao', DoubaoProvider],
       ['openai', OpenAIProvider],
+      ['voiceai', VoiceAIProvider],
       ['openai-compatible', OpenAICompatibleProvider],
       ['openai-responses', OpenAIResponsesProvider],
       ['lmstudio', LMStudioProvider],
diff --git a/src/main/presenter/llmProviderPresenter/providers/voiceAIProvider.ts b/src/main/presenter/llmProviderPresenter/providers/voiceAIProvider.ts
new file mode 100644
index 000000000..24971ed13
--- /dev/null
+++ b/src/main/presenter/llmProviderPresenter/providers/voiceAIProvider.ts
@@ -0,0 +1,469 @@
+import {
+  ChatMessage,
+  IConfigPresenter,
+  LLM_PROVIDER,
+  LLMResponse,
+  MODEL_META,
+  LLMCoreStreamEvent,
+  MCPToolDefinition,
+  ModelConfig
+} from '@shared/presenter'
+import { createStreamEvent } from '@shared/types/core/llm-events'
+import { BaseLLMProvider } from '../baseProvider'
+import { proxyConfig } from '../../proxyConfig'
+import { ProxyAgent } from 'undici'
+
+const DEFAULT_BASE_URL = 'https://dev.voice.ai'
+const DEFAULT_AUDIO_FORMAT = 'mp3'
+const DEFAULT_TTS_MODEL = 'voiceai-tts-v1-latest'
+const DEFAULT_LANGUAGE = 'en'
+const DEFAULT_TEMPERATURE = 1
+const DEFAULT_TOP_P = 0.8
+const SUPPORTED_LANGUAGES = new Set([
+  'en',
+  'ca',
+  'sv',
+  'es',
+  'fr',
+  'de',
+  'it',
+  'pt',
+  'pl',
+  'ru',
+  'nl'
+])
+
+const AUDIO_MIME_TYPE: Record<string, string> = {
+  mp3: 'audio/mpeg',
+  wav: 'audio/wav',
+  pcm: 'audio/pcm'
+}
+
+type VoiceStatusResponse = {
+  voice_id: string
+  name?: string | null
+  status?: string
+  voice_visibility?: string | null
+}
+
+type VoiceAITtsConfig = {
+  audioFormat: string
+  model: string
+  language: string
+  temperature: number
+  topP: number
+}
+
+export class VoiceAIProvider extends BaseLLMProvider {
+  private proxyAgent?: ProxyAgent
+  private proxyUrl?: string
+
+  constructor(provider: LLM_PROVIDER, configPresenter: IConfigPresenter) {
+    super(provider, configPresenter)
+    this.init()
+  }
+
+  public onProxyResolved(): void {
+    this.proxyAgent = undefined
+    this.proxyUrl = undefined
+  }
+
+  public async check(): Promise<{ isOk: boolean; errorMsg: string | null }> {
+    if (!this.provider.apiKey) {
+      return { isOk: false, errorMsg: 'API key is required' }
+    }
+
+    try {
+      await this.listVoices()
+      return { isOk: true, errorMsg: null }
+    } catch (error: unknown) {
+      const message = error instanceof Error ? error.message : String(error)
+      return { isOk: false, errorMsg: message }
+    }
+  }
+
+  public async summaryTitles(messages: ChatMessage[], _modelId: string): Promise<string> {
+    const text = this.extractLatestUserText(messages)
+    if (!text) return 'Voice AI'
+    return this.buildShortTitle(text)
+  }
+
+  public async completions(
+    messages: ChatMessage[],
+    modelId: string,
+    temperature?: number,
+    _maxTokens?: number
+  ): Promise<LLMResponse> {
+    const text = this.extractLatestUserText(messages)
+    if (!text) {
+      throw new Error('No user text provided for Voice.ai TTS')
+    }
+
+    await this.generateSpeech(text, modelId, temperature)
+
+    return {
+      content: text
+    }
+  }
+
+  public async summaries(
+    text: string,
+    modelId: string,
+    temperature?: number,
+    _maxTokens?: number
+  ): Promise<LLMResponse> {
+    if (!text) {
+      throw new Error('No text provided for Voice.ai TTS')
+    }
+
+    await this.generateSpeech(text, modelId, temperature)
+
+    return {
+      content: this.buildShortTitle(text)
+    }
+  }
+
+  public async generateText(
+    prompt: string,
+    modelId: string,
+    temperature?: number,
+    _maxTokens?: number
+  ): Promise<LLMResponse> {
+    if (!prompt) {
+      throw new Error('No prompt provided for Voice.ai TTS')
+    }
+
+    await this.generateSpeech(prompt, modelId, temperature)
+
+    return {
+      content: prompt
+    }
+  }
+
+  public async *coreStream(
+    messages: ChatMessage[],
+    modelId: string,
+    _modelConfig: ModelConfig,
+    temperature: number,
+    _maxTokens: number,
+    _mcpTools: MCPToolDefinition[]
+  ): AsyncGenerator<LLMCoreStreamEvent> {
+    const text = this.extractLatestUserText(messages)
+    if (!text) {
+      yield createStreamEvent.error('No user text provided for Voice.ai TTS')
+      yield createStreamEvent.stop('error')
+      return
+    }
+
+    try {
+      const { audioBase64, mimeType } = await this.generateSpeech(text, modelId, temperature)
+
+      yield createStreamEvent.imageData({
+        data: audioBase64,
+        mimeType
+      })
+
+      yield createStreamEvent.stop('complete')
+    } catch (error: unknown) {
+      const message = error instanceof Error ? error.message : String(error)
+      yield createStreamEvent.error(message)
+      yield createStreamEvent.stop('error')
+    }
+  }
+
+  protected async fetchProviderModels(): Promise<MODEL_META[]> {
+    if (!this.provider.apiKey) return []
+
+    try {
+      const voices = await this.listVoices()
+      const models: MODEL_META[] = voices.map((voice) => ({
+        id: voice.voice_id,
+        name: voice.name && voice.name.trim().length > 0 ? voice.name : voice.voice_id,
+        group: 'default',
+        providerId: this.provider.id,
+        isCustom: false,
+        contextLength: 4096,
+        maxTokens: 2048
+      }))
+
+      const defaultVoice: MODEL_META = {
+        id: 'default',
+        name: 'Default Voice',
+        group: 'default',
+        providerId: this.provider.id,
+        isCustom: false,
+        contextLength: 4096,
+        maxTokens: 2048
+      }
+
+      return [defaultVoice, ...models]
+    } catch (error) {
+      console.error('[VoiceAI] Failed to fetch voices:', error)
+      return []
+    }
+  }
+
+  private getFetchOptions(): { dispatcher?: ProxyAgent } {
+    const proxyUrl = proxyConfig.getProxyUrl()
+    if (!proxyUrl) return {}
+    if (this.proxyUrl !== proxyUrl || !this.proxyAgent) {
+      this.proxyAgent = new ProxyAgent(proxyUrl)
+      this.proxyUrl = proxyUrl
+    }
+    return { dispatcher: this.proxyAgent }
+  }
+
+  private getBaseUrl(): string {
+    const raw = this.provider.baseUrl?.trim()
+    if (raw && raw.length > 0) {
+      return raw.replace(/\/+$/, '')
+    }
+    return DEFAULT_BASE_URL
+  }
+
+  private buildUrl(path: string): string {
+    const base = this.getBaseUrl()
+    const normalizedPath = path.startsWith('/') ? path : `/${path}`
+    return `${base}${normalizedPath}`
+  }
+
+  private getAuthHeaders(): Record<string, string> {
+    if (!this.provider.apiKey) {
+      throw new Error('API key is required')
+    }
+
+    return {
+      Authorization: `Bearer ${this.provider.apiKey}`,
+      'Content-Type': 'application/json',
+      ...this.defaultHeaders
+    }
+  }
+
+  private getTtsConfig(): VoiceAITtsConfig {
+    const audioFormat =
+      this.configPresenter.getSetting<string>('voiceAI_audioFormat') || DEFAULT_AUDIO_FORMAT
+    const model = this.configPresenter.getSetting<string>('voiceAI_model') || DEFAULT_TTS_MODEL
+    const rawLanguage = this.configPresenter.getSetting<string>('voiceAI_language')
+    const language = rawLanguage?.trim().toLowerCase() || DEFAULT_LANGUAGE
+    const temperatureSetting = this.configPresenter.getSetting<number>('voiceAI_temperature')
+    const topPSetting = this.configPresenter.getSetting<number>('voiceAI_topP')
+
+    return {
+      audioFormat,
+      model,
+      language,
+      temperature:
+        typeof temperatureSetting === 'number' ? temperatureSetting : DEFAULT_TEMPERATURE,
+      topP: typeof topPSetting === 'number' ? topPSetting : DEFAULT_TOP_P
+    }
+  }
+
+  private resolveVoiceId(modelId: string | undefined): string | null {
+    if (!modelId) return null
+    if (modelId === 'default') return null
+    return modelId
+  }
+
+  private getAudioMimeType(format: string): string {
+    const key = format.toLowerCase()
+    return AUDIO_MIME_TYPE[key] || 'audio/mpeg'
+  }
+
+  private parseDataUri(value: string): { mimeType: string; data: string } | null {
+    const match = value.match(/^data:([^;]+);base64,(.*)$/)
+    if (!match?.[1] || !match?.[2]) return null
+    return { mimeType: match[1], data: match[2] }
+  }
+
+  private isHttpUrl(value: string): boolean {
+    return value.startsWith('http://') || value.startsWith('https://')
+  }
+
+  private pickString(source: Record<string, unknown>, keys: string[]): string | null {
+    for (const key of keys) {
+      const value = source[key]
+      if (typeof value === 'string' && value.trim().length > 0) {
+        return value
+      }
+    }
+    return null
+  }
+
+  private async fetchAudioFromUrl(
+    url: string,
+    fallbackMimeType: string
+  ): Promise<{ audioBase64: string; mimeType: string }> {
+    const headers: Record<string, string> = { ...this.defaultHeaders }
+    const baseUrl = this.getBaseUrl()
+    if (this.provider.apiKey && url.startsWith(baseUrl)) {
+      headers.Authorization = `Bearer ${this.provider.apiKey}`
+    }
+
+    const response = await fetch(url, {
+      method: 'GET',
+      headers,
+      ...this.getFetchOptions()
+    })
+
+    if (!response.ok) {
+      const errorText = await response.text()
+      throw new Error(`Voice.ai audio fetch failed: ${response.status} ${errorText}`)
+    }
+
+    const contentType = response.headers.get('content-type')?.split(';')[0]?.trim()
+    const mimeType = contentType && contentType.length > 0 ? contentType : fallbackMimeType
+    const buffer = Buffer.from(await response.arrayBuffer())
+    return { audioBase64: buffer.toString('base64'), mimeType }
+  }
+
+  private async resolveAudioValue(
+    value: string,
+    fallbackMimeType: string
+  ): Promise<{ audioBase64: string; mimeType: string } | null> {
+    const trimmed = value.trim()
+    if (!trimmed) return null
+
+    const dataUri = this.parseDataUri(trimmed)
+    if (dataUri) {
+      return { audioBase64: dataUri.data, mimeType: dataUri.mimeType }
+    }
+
+    if (this.isHttpUrl(trimmed)) {
+      return await this.fetchAudioFromUrl(trimmed, fallbackMimeType)
+    }
+
+    return { audioBase64: trimmed, mimeType: fallbackMimeType }
+  }
+
+  private async resolveAudioFromJson(
+    payload: unknown,
+    fallbackMimeType: string
+  ): Promise<{ audioBase64: string; mimeType: string } | null> {
+    if (!payload || typeof payload !== 'object') return null
+
+    const data = payload as Record<string, unknown>
+    const rootMimeType =
+      this.pickString(data, ['mime_type', 'content_type', 'contentType']) || fallbackMimeType
+
+    const audioField = data.audio
+    if (audioField && typeof audioField === 'object') {
+      const audioData = audioField as Record<string, unknown>
+      const audioMimeType =
+        this.pickString(audioData, ['mime_type', 'content_type', 'contentType']) || rootMimeType
+      const audioValue =
+        this.pickString(audioData, ['base64', 'data', 'audio_base64', 'audioBase64', 'audio']) ||
+        this.pickString(audioData, ['url', 'audio_url', 'audioUrl'])
+      if (audioValue) {
+        return await this.resolveAudioValue(audioValue, audioMimeType)
+      }
+    }
+
+    const directAudioValue =
+      this.pickString(data, ['audio_base64', 'audioBase64', 'audio', 'data']) ||
+      this.pickString(data, ['audio_url', 'audioUrl', 'url'])
+    if (directAudioValue) {
+      return await this.resolveAudioValue(directAudioValue, rootMimeType)
+    }
+
+    return null
+  }
+
+  private async listVoices(): Promise<VoiceStatusResponse[]> {
+    const response = await fetch(this.buildUrl('/api/v1/tts/voices'), {
+      method: 'GET',
+      headers: this.getAuthHeaders(),
+      ...this.getFetchOptions()
+    })
+
+    if (!response.ok) {
+      const errorText = await response.text()
+      throw new Error(`Voice.ai list voices failed: ${response.status} ${errorText}`)
+    }
+
+    const data = await response.json()
+    if (!Array.isArray(data)) return []
+    return data as VoiceStatusResponse[]
+  }
+
+  private async generateSpeech(
+    text: string,
+    modelId: string,
+    temperature?: number
+  ): Promise<{ audioBase64: string; mimeType: string }> {
+    const config = this.getTtsConfig()
+    if (!SUPPORTED_LANGUAGES.has(config.language)) {
+      throw new Error(
+        `Unsupported language code: ${config.language}. Supported languages: ${Array.from(
+          SUPPORTED_LANGUAGES
+        ).join(', ')}`
+      )
+    }
+    const voiceId = this.resolveVoiceId(modelId)
+    const requestBody: Record<string, unknown> = {
+      text,
+      audio_format: config.audioFormat,
+      model: config.model,
+      language: config.language,
+      temperature: typeof temperature === 'number' ? temperature : config.temperature,
+      top_p: config.topP
+    }
+
+    if (voiceId) {
+      requestBody['voice_id'] = voiceId
+    }
+
+    const response = await fetch(this.buildUrl('/api/v1/tts/speech'), {
+      method: 'POST',
+      headers: this.getAuthHeaders(),
+      body: JSON.stringify(requestBody),
+      ...this.getFetchOptions()
+    })
+
+    if (!response.ok) {
+      const errorText = await response.text()
+      throw new Error(`Voice.ai generate speech failed: ${response.status} ${errorText}`)
+    }
+
+    const contentType = response.headers.get('content-type')?.split(';')[0]?.trim()
+    const fallbackMimeType = this.getAudioMimeType(config.audioFormat)
+
+    if (contentType?.includes('application/json')) {
+      const json = await response.json()
+      const resolved = await this.resolveAudioFromJson(json, fallbackMimeType)
+      if (!resolved) {
+        throw new Error('Voice.ai generate speech returned JSON without audio data')
+      }
+      return resolved
+    }
+
+    const mimeType = contentType && contentType.length > 0 ? contentType : fallbackMimeType
+    const buffer = Buffer.from(await response.arrayBuffer())
+    return { audioBase64: buffer.toString('base64'), mimeType }
+  }
+
+  private extractLatestUserText(messages: ChatMessage[]): string | null {
+    const lastUser = [...messages].reverse().find((message) => message.role === 'user')
+    if (!lastUser?.content) return null
+
+    if (typeof lastUser.content === 'string') {
+      return lastUser.content
+    }
+
+    if (Array.isArray(lastUser.content)) {
+      const textParts = lastUser.content
+        .filter((part) => part.type === 'text')
+        .map((part) => part.text)
+        .filter(Boolean)
+
+      return textParts.length > 0 ? textParts.join('\n') : null
+    }
+
+    return null
+  }
+
+  private buildShortTitle(text: string): string {
+    const normalized = text.replace(/\s+/g, ' ').trim()
+    if (!normalized) return 'Voice AI'
+    return normalized.length > 32 ? `${normalized.slice(0, 32)}…` : normalized
+  }
+}
diff --git a/src/renderer/settings/components/ModelProviderSettingsDetail.vue b/src/renderer/settings/components/ModelProviderSettingsDetail.vue
index 5273daa09..30615df24 100644
--- a/src/renderer/settings/components/ModelProviderSettingsDetail.vue
+++ b/src/renderer/settings/components/ModelProviderSettingsDetail.vue
@@ -45,6 +45,10 @@
 
         <Separator v-if="provider.id === 'gemini'" />
 
+        <VoiceAIProviderConfig v-if="provider.id === 'voiceai'" :provider="provider" />
+
+        <Separator v-if="provider.id === 'voiceai'" />
+
         <!-- 速率限制配置 -->
         <ProviderRateLimitConfig :provider="provider" @config-changed="handleConfigChanged" />
 
@@ -104,6 +108,7 @@ import { levelToValueMap, safetyCategories } from '@/lib/gemini'
 import { Separator } from '@shadcn/components/ui/separator'
 import type { SafetyCategoryKey, SafetySettingValue } from '@/lib/gemini'
 import { useThrottleFn } from '@vueuse/core'
+import VoiceAIProviderConfig from './VoiceAIProviderConfig.vue'
 
 interface ProviderWebsites {
   official: string
diff --git a/src/renderer/settings/components/VoiceAIProviderConfig.vue b/src/renderer/settings/components/VoiceAIProviderConfig.vue
new file mode 100644
index 000000000..083a3c1be
--- /dev/null
+++ b/src/renderer/settings/components/VoiceAIProviderConfig.vue
@@ -0,0 +1,204 @@
+<template>
+  <div class="space-y-4">
+    <div class="rounded-2xl border bg-muted/30 p-4">
+      <div class="flex items-start gap-3">
+        <div class="flex h-9 w-9 items-center justify-center rounded-lg bg-primary/10 text-primary">
+          <Icon icon="lucide:audio-waveform" class="h-5 w-5" />
+        </div>
+        <div class="space-y-1">
+          <p class="text-sm font-medium">{{ t('settings.provider.voiceai.title') }}</p>
+          <p class="text-xs text-muted-foreground">
+            {{ t('settings.provider.voiceai.description') }}
+          </p>
+        </div>
+      </div>
+    </div>
+
+    <div class="rounded-2xl border bg-card p-4">
+      <div class="grid gap-4 md:grid-cols-2">
+        <div class="space-y-2">
+          <Label :for="`${provider.id}-audio-format`" class="text-xs font-medium">
+            {{ t('settings.provider.voiceai.audioFormat.label') }}
+          </Label>
+          <Select v-model="audioFormat" :disabled="isHydrating">
+            <SelectTrigger :id="`${provider.id}-audio-format`">
+              <SelectValue :placeholder="t('settings.provider.voiceai.audioFormat.placeholder')" />
+            </SelectTrigger>
+            <SelectContent>
+              <SelectItem value="mp3">MP3</SelectItem>
+              <SelectItem value="wav">WAV</SelectItem>
+              <SelectItem value="pcm">PCM</SelectItem>
+            </SelectContent>
+          </Select>
+          <p class="text-xs text-muted-foreground">
+            {{ t('settings.provider.voiceai.audioFormat.helper') }}
+          </p>
+        </div>
+
+        <div class="space-y-2">
+          <Label :for="`${provider.id}-language`" class="text-xs font-medium">
+            {{ t('settings.provider.voiceai.language.label') }}
+          </Label>
+          <Input
+            :id="`${provider.id}-language`"
+            v-model="language"
+            :placeholder="t('settings.provider.voiceai.language.placeholder')"
+            :disabled="isHydrating"
+          />
+          <p class="text-xs text-muted-foreground">
+            {{ t('settings.provider.voiceai.language.helper') }}
+          </p>
+        </div>
+
+        <div class="space-y-2 md:col-span-2">
+          <Label :for="`${provider.id}-tts-model`" class="text-xs font-medium">
+            {{ t('settings.provider.voiceai.model.label') }}
+          </Label>
+          <Input
+            :id="`${provider.id}-tts-model`"
+            v-model="ttsModel"
+            :placeholder="t('settings.provider.voiceai.model.placeholder')"
+            :disabled="isHydrating"
+          />
+          <p class="text-xs text-muted-foreground">
+            {{ t('settings.provider.voiceai.model.helper') }}
+          </p>
+        </div>
+      </div>
+
+      <Separator class="my-4" />
+
+      <div class="grid gap-4 md:grid-cols-2">
+        <div class="space-y-2">
+          <div class="flex items-center justify-between">
+            <Label :for="`${provider.id}-temperature`" class="text-xs font-medium">
+              {{ t('settings.provider.voiceai.temperature.label') }}
+            </Label>
+            <span class="text-xs text-muted-foreground">{{ temperature.toFixed(2) }}</span>
+          </div>
+          <Slider
+            :id="`${provider.id}-temperature`"
+            :min="0"
+            :max="2"
+            :step="0.05"
+            :model-value="[temperature]"
+            @update:model-value="onTemperatureChange"
+          />
+          <p class="text-xs text-muted-foreground">
+            {{ t('settings.provider.voiceai.temperature.helper') }}
+          </p>
+        </div>
+
+        <div class="space-y-2">
+          <div class="flex items-center justify-between">
+            <Label :for="`${provider.id}-top-p`" class="text-xs font-medium">
+              {{ t('settings.provider.voiceai.topP.label') }}
+            </Label>
+            <span class="text-xs text-muted-foreground">{{ topP.toFixed(2) }}</span>
+          </div>
+          <Slider
+            :id="`${provider.id}-top-p`"
+            :min="0"
+            :max="1"
+            :step="0.05"
+            :model-value="[topP]"
+            @update:model-value="onTopPChange"
+          />
+          <p class="text-xs text-muted-foreground">
+            {{ t('settings.provider.voiceai.topP.helper') }}
+          </p>
+        </div>
+      </div>
+    </div>
+  </div>
+</template>
+
+<script setup lang="ts">
+import { onMounted, ref, watch } from 'vue'
+import type { LLM_PROVIDER } from '@shared/presenter'
+import { useI18n } from 'vue-i18n'
+import { useProviderStore } from '@/stores/providerStore'
+import { Input } from '@shadcn/components/ui/input'
+import { Label } from '@shadcn/components/ui/label'
+import { Separator } from '@shadcn/components/ui/separator'
+import { Slider } from '@shadcn/components/ui/slider'
+import {
+  Select,
+  SelectContent,
+  SelectItem,
+  SelectTrigger,
+  SelectValue
+} from '@shadcn/components/ui/select'
+import { Icon } from '@iconify/vue'
+import { useDebounceFn } from '@vueuse/core'
+
+defineProps<{
+  provider: LLM_PROVIDER
+}>()
+
+const { t } = useI18n()
+const providerStore = useProviderStore()
+
+const audioFormat = ref('mp3')
+const ttsModel = ref('voiceai-tts-v1-latest')
+const language = ref('en')
+const temperature = ref(1)
+const topP = ref(0.8)
+const isHydrating = ref(true)
+
+type VoiceAIConfigUpdates = {
+  audioFormat?: string
+  model?: string
+  language?: string
+  temperature?: number
+  topP?: number
+}
+
+const persistUpdates = useDebounceFn(async (updates: VoiceAIConfigUpdates) => {
+  await providerStore.updateVoiceAIConfig(updates)
+}, 200)
+
+const loadConfig = async () => {
+  isHydrating.value = true
+  const config = await providerStore.getVoiceAIConfig()
+  audioFormat.value = config.audioFormat
+  ttsModel.value = config.model
+  language.value = config.language
+  temperature.value = config.temperature
+  topP.value = config.topP
+  isHydrating.value = false
+}
+
+onMounted(() => {
+  void loadConfig()
+})
+
+watch(audioFormat, (value) => {
+  if (isHydrating.value) return
+  void persistUpdates({ audioFormat: value })
+})
+
+watch(ttsModel, (value) => {
+  if (isHydrating.value) return
+  void persistUpdates({ model: value })
+})
+
+watch(language, (value) => {
+  if (isHydrating.value) return
+  void persistUpdates({ language: value })
+})
+
+const onTemperatureChange = (value: number[] | undefined) => {
+  if (!value || value[0] === undefined) return
+  temperature.value = value[0]
+  if (isHydrating.value) return
+  void persistUpdates({ temperature: value[0] })
+}
+
+const onTopPChange = (value: number[] | undefined) => {
+  if (!value || value[0] === undefined) return
+  topP.value = value[0]
+  if (isHydrating.value) return
+  void persistUpdates({ topP: value[0] })
+}
+</script>
diff --git a/src/renderer/src/assets/llm-icons/voiceai.svg b/src/renderer/src/assets/llm-icons/voiceai.svg
new file mode 100644
index 000000000..d68a970f9
--- /dev/null
+++ b/src/renderer/src/assets/llm-icons/voiceai.svg
@@ -0,0 +1,11 @@
+<svg width="24" height="24" viewBox="0 0 24 24" fill="none" xmlns="http://www.w3.org/2000/svg">
+  <defs>
+    <linearGradient id="voiceaiGradient" x1="0" y1="0" x2="1" y2="1">
+      <stop offset="0%" stop-color="#06b6d4" />
+      <stop offset="100%" stop-color="#6366f1" />
+    </linearGradient>
+  </defs>
+  <rect x="4" y="7" width="3" height="10" rx="1.5" fill="#94a3b8" />
+  <rect x="10.5" y="4" width="3" height="16" rx="1.5" fill="url(#voiceaiGradient)" />
+  <rect x="17" y="7" width="3" height="10" rx="1.5" fill="#94a3b8" />
+</svg>
diff --git a/src/renderer/src/components/icons/ModelIcon.vue b/src/renderer/src/components/icons/ModelIcon.vue
index 46748a54b..1116901d7 100644
--- a/src/renderer/src/components/icons/ModelIcon.vue
+++ b/src/renderer/src/components/icons/ModelIcon.vue
@@ -68,6 +68,7 @@ import zenmuxColorIcon from '@/assets/llm-icons/zenmux-color.svg?url'
 import burncloudColorIcon from '@/assets/llm-icons/burncloud-color.svg?url'
 import xiaomiColorIcon from '@/assets/llm-icons/xiaomi.png?url'
 import o3fanColorIcon from '@/assets/llm-icons/o3-fan.png?url'
+import voiceAiColorIcon from '@/assets/llm-icons/voiceai.svg?url'
 
 // 导入所有图标
 const icons = {
@@ -148,6 +149,7 @@ const icons = {
   zenmux: zenmuxColorIcon,
   burncloud: burncloudColorIcon,
   xiaomi: xiaomiColorIcon,
+  voiceai: voiceAiColorIcon,
   default: defaultIcon
 }
 
diff --git a/src/renderer/src/components/message/MessageBlockAudio.vue b/src/renderer/src/components/message/MessageBlockAudio.vue
new file mode 100644
index 000000000..bbcda61aa
--- /dev/null
+++ b/src/renderer/src/components/message/MessageBlockAudio.vue
@@ -0,0 +1,112 @@
+<template>
+  <div class="my-1">
+    <div class="rounded-lg border bg-card text-card-foreground p-4 w-fit">
+      <div class="flex flex-col space-y-2">
+        <!-- Audio area -->
+        <div class="flex justify-center">
+          <template v-if="resolvedAudioData">
+            <div class="flex min-w-90 flex-col gap-3">
+              <div class="flex items-center gap-2 text-xs text-muted-foreground">
+                <Icon icon="lucide:music-2" class="h-4 w-4" />
+                <span>{{ t('mcp.sampling.contentType.audio') }}</span>
+              </div>
+              <div class="rounded-xl border bg-muted/30 p-3">
+                <audio :src="audioSrc" controls class="w-full" />
+              </div>
+              <div class="text-[11px] text-muted-foreground">
+                {{ resolvedAudioData.mimeType }}
+              </div>
+              <div v-if="audioError" class="text-xs text-red-500">
+                {{ t('common.error.requestFailed') }}
+              </div>
+            </div>
+          </template>
+          <div v-else class="flex items-center justify-center h-40 w-full">
+            <Icon icon="lucide:loader-2" class="w-6 h-6 animate-spin text-muted-foreground" />
+          </div>
+        </div>
+      </div>
+    </div>
+  </div>
+</template>
+
+<script setup lang="ts">
+import { computed, ref } from 'vue'
+import { Icon } from '@iconify/vue'
+import { AssistantMessageBlock } from '@shared/chat'
+import { useI18n } from 'vue-i18n'
+
+const keyMap = {
+  'mcp.sampling.contentType.audio': 'Audio',
+  'common.error.requestFailed': 'Request failed'
+}
+
+const t = (() => {
+  try {
+    const { t } = useI18n()
+    return t
+  } catch (e) {
+    return (key: string) => keyMap[key] || key
+  }
+})()
+
+const props = defineProps<{
+  block: AssistantMessageBlock
+  messageId?: string
+  threadId?: string
+}>()
+
+type LegacyAudioBlockContent = {
+  data?: string
+  mimeType?: string
+}
+
+const audioError = ref(false)
+
+const parseAudioDataUri = (value: string): { data: string; mimeType: string } | null => {
+  const match = value.match(/^data:([^;]+);base64,(.*)$/)
+  if (!match?.[1] || !match?.[2]) return null
+  if (!match[1].startsWith('audio/')) return null
+  return { data: match[2], mimeType: match[1] }
+}
+
+const normalizeAudioData = (rawData: string, mimeType?: string) => {
+  const trimmed = rawData.trim()
+  if (!trimmed) return null
+  const parsed = parseAudioDataUri(trimmed)
+  if (parsed) return parsed
+
+  const normalizedMimeType = mimeType?.trim() || 'audio/mpeg'
+  return { data: trimmed, mimeType: normalizedMimeType }
+}
+
+const resolvedAudioData = computed(() => {
+  if (props.block.image_data?.data) {
+    return normalizeAudioData(props.block.image_data.data, props.block.image_data.mimeType)
+  }
+
+  const content = props.block.content
+  if (content && typeof content === 'object' && 'data' in (content as LegacyAudioBlockContent)) {
+    const legacyContent = content as LegacyAudioBlockContent
+    if (legacyContent.data) {
+      return normalizeAudioData(legacyContent.data, legacyContent.mimeType)
+    }
+  }
+
+  if (typeof content === 'string' && content.length > 0) {
+    return normalizeAudioData(content)
+  }
+
+  return null
+})
+
+const audioSrc = computed(() => {
+  if (!resolvedAudioData.value) return ''
+  const raw = resolvedAudioData.value.data
+  if (raw.startsWith('imgcache://') || raw.startsWith('http://') || raw.startsWith('https://')) {
+    return raw
+  }
+  return `data:${resolvedAudioData.value.mimeType};base64,${raw}`
+})
+
+</script>
diff --git a/src/renderer/src/components/message/MessageItemAssistant.vue b/src/renderer/src/components/message/MessageItemAssistant.vue
index 04310749b..9dae745ce 100644
--- a/src/renderer/src/components/message/MessageItemAssistant.vue
+++ b/src/renderer/src/components/message/MessageItemAssistant.vue
@@ -71,6 +71,12 @@
             :message-id="currentMessage.id"
             :thread-id="currentThreadId"
           />
+          <MessageBlockAudio
+            v-else-if="isAudioBlock(block)"
+            :block="block"
+            :message-id="currentMessage.id"
+            :thread-id="currentThreadId"
+          />
           <MessageBlockImage
             v-else-if="block.type === 'image'"
             :block="block"
@@ -140,6 +146,7 @@ import { Spinner } from '@shadcn/components/ui/spinner'
 import MessageBlockAction from './MessageBlockAction.vue'
 import { useI18n } from 'vue-i18n'
 import MessageBlockImage from './MessageBlockImage.vue'
+import MessageBlockAudio from './MessageBlockAudio.vue'
 import MessageBlockMcpUi from './MessageBlockMcpUi.vue'
 import MessageBlockPlan from './MessageBlockPlan.vue'
 
@@ -163,6 +170,22 @@ const chatStore = useChatStore()
 const uiSettingsStore = useUiSettingsStore()
 const { t } = useI18n()
 
+const AUDIO_EXTENSIONS = ['.mp3', '.wav', '.m4a', '.aac', '.flac', '.ogg', '.opus', '.webm']
+
+const isAudioBlock = (block: AssistantMessageBlock): boolean => {
+  if (block.type === 'audio') return true
+  if (block.type !== 'image') return false
+  const mimeType = block.image_data?.mimeType?.toLowerCase() || ''
+  if (mimeType.startsWith('audio/')) return true
+  const data = block.image_data?.data || ''
+  if (data.startsWith('data:audio/')) return true
+  if (data.startsWith('imgcache://') || data.startsWith('http://') || data.startsWith('https://')) {
+    const lower = data.toLowerCase()
+    return AUDIO_EXTENSIONS.some((ext) => lower.includes(ext))
+  }
+  return false
+}
+
 // 定义事件
 const emit = defineEmits<{
   copyImage: [
diff --git a/src/renderer/src/components/settings/ModelConfigDialog.vue b/src/renderer/src/components/settings/ModelConfigDialog.vue
index ed9582da9..54e551834 100644
--- a/src/renderer/src/components/settings/ModelConfigDialog.vue
+++ b/src/renderer/src/components/settings/ModelConfigDialog.vue
@@ -507,7 +507,8 @@ const isOpenAICompatibleProvider = computed(() => {
     'aws-bedrock',
     'github-copilot',
     'ollama',
-    'acp'
+    'acp',
+    'voiceai'
   ]
   const providerId = props.providerId?.toLowerCase() || ''
   return !EXCLUDED_PROVIDERS.some((excluded) => providerId.includes(excluded))
diff --git a/src/renderer/src/i18n/en-US/settings.json b/src/renderer/src/i18n/en-US/settings.json
index 62c3cd32e..09104c498 100644
--- a/src/renderer/src/i18n/en-US/settings.json
+++ b/src/renderer/src/i18n/en-US/settings.json
@@ -493,6 +493,33 @@
       "verifyFailed": "Verification failed",
       "verifySuccess": "Verification is successful"
     },
+    "voiceai": {
+      "title": "Voice.ai Text-to-Speech",
+      "description": "Generate speech from text. Voices appear in the model list below.",
+      "audioFormat": {
+        "label": "Audio Format",
+        "placeholder": "Select format",
+        "helper": "MP3 is recommended for most cases."
+      },
+      "language": {
+        "label": "Language",
+        "placeholder": "e.g. en",
+        "helper": "Supported: en, ca, sv, es, fr, de, it, pt, pl, ru, nl."
+      },
+      "model": {
+        "label": "TTS Model",
+        "placeholder": "voiceai-tts-v1-latest",
+        "helper": "See the Voice.ai docs for supported models."
+      },
+      "temperature": {
+        "label": "Temperature",
+        "helper": "Controls randomness (0-2)."
+      },
+      "topP": {
+        "label": "Top P",
+        "helper": "Nucleus sampling (0-1)."
+      }
+    },
     "anthropicApiKeyTip": "Please go to Anthropic Console to get your API Key",
     "anthropicConnected": "Anthropic connected",
     "anthropicNotConnected": "Anthropic not connected",
diff --git a/src/renderer/src/i18n/zh-CN/settings.json b/src/renderer/src/i18n/zh-CN/settings.json
index e93f99dde..4e3ae8873 100644
--- a/src/renderer/src/i18n/zh-CN/settings.json
+++ b/src/renderer/src/i18n/zh-CN/settings.json
@@ -394,6 +394,33 @@
         "operationalDescription": "同步 ModelScope 平台上可直接使用的 MCP 服务器"
       }
     },
+    "voiceai": {
+      "title": "Voice.ai 文字转语音",
+      "description": "将文本生成语音，voice 会在下方模型列表中展示。",
+      "audioFormat": {
+        "label": "音频格式",
+        "placeholder": "选择格式",
+        "helper": "多数场景推荐 MP3。"
+      },
+      "language": {
+        "label": "语言",
+        "placeholder": "例如 en",
+        "helper": "支持语言：en, ca, sv, es, fr, de, it, pt, pl, ru, nl。"
+      },
+      "model": {
+        "label": "TTS 模型",
+        "placeholder": "voiceai-tts-v1-latest",
+        "helper": "可选模型请查看 Voice.ai 文档。"
+      },
+      "temperature": {
+        "label": "温度",
+        "helper": "随机性参数（0-2）。"
+      },
+      "topP": {
+        "label": "Top P",
+        "helper": "Nucleus 采样（0-1）。"
+      }
+    },
     "dialog": {
       "disableModel": {
         "title": "确认禁用模型",
diff --git a/src/renderer/src/stores/chat.ts b/src/renderer/src/stores/chat.ts
index abc4f30a1..5774875e8 100644
--- a/src/renderer/src/stores/chat.ts
+++ b/src/renderer/src/stores/chat.ts
@@ -1225,9 +1225,12 @@ export const useChatStore = defineStore('chat', () => {
       }
     } else if (msg.image_data) {
       finalizeAssistantMessageBlocks(assistantMsg.content)
+      const mimeType = msg.image_data.mimeType || ''
+      const isAudio =
+        mimeType.startsWith('audio/') || msg.image_data.data?.startsWith('data:audio/')
       assistantMsg.content.push({
-        type: 'image',
-        content: 'image',
+        type: isAudio ? 'audio' : 'image',
+        content: isAudio ? 'audio' : 'image',
         status: 'success',
         timestamp: Date.now(),
         image_data: {
diff --git a/src/renderer/src/stores/providerStore.ts b/src/renderer/src/stores/providerStore.ts
index 5c1d21fbd..aff55d07c 100644
--- a/src/renderer/src/stores/providerStore.ts
+++ b/src/renderer/src/stores/providerStore.ts
@@ -5,6 +5,14 @@ import { useIpcQuery } from '@/composables/useIpcQuery'
 import { CONFIG_EVENTS, PROVIDER_DB_EVENTS } from '@/events'
 import type { AWS_BEDROCK_PROVIDER, LLM_PROVIDER, VERTEX_PROVIDER } from '@shared/presenter'
 
+type VoiceAIConfig = {
+  audioFormat: string
+  model: string
+  language: string
+  temperature: number
+  topP: number
+}
+
 const PROVIDER_ORDER_KEY = 'providerOrder'
 const PROVIDER_TIMESTAMP_KEY = 'providerTimestamps'
 
@@ -340,6 +348,34 @@ export const useProviderStore = defineStore('provider', () => {
     return await configP.getSetting('awsBedrockCredential')
   }
 
+  const getVoiceAIConfig = async (): Promise<VoiceAIConfig> => {
+    return {
+      audioFormat: (await configP.getSetting<string>('voiceAI_audioFormat')) || 'mp3',
+      model: (await configP.getSetting<string>('voiceAI_model')) || 'voiceai-tts-v1-latest',
+      language: (await configP.getSetting<string>('voiceAI_language')) || 'en',
+      temperature: (await configP.getSetting<number>('voiceAI_temperature')) ?? 1,
+      topP: (await configP.getSetting<number>('voiceAI_topP')) ?? 0.8
+    }
+  }
+
+  const updateVoiceAIConfig = async (updates: Partial<VoiceAIConfig>) => {
+    if (updates.audioFormat !== undefined) {
+      await configP.setSetting('voiceAI_audioFormat', updates.audioFormat)
+    }
+    if (updates.model !== undefined) {
+      await configP.setSetting('voiceAI_model', updates.model)
+    }
+    if (updates.language !== undefined) {
+      await configP.setSetting('voiceAI_language', updates.language)
+    }
+    if (updates.temperature !== undefined) {
+      await configP.setSetting('voiceAI_temperature', updates.temperature)
+    }
+    if (updates.topP !== undefined) {
+      await configP.setSetting('voiceAI_topP', updates.topP)
+    }
+  }
+
   const updateProviderTimestamp = async (providerId: string) => {
     providerTimestamps.value[providerId] = Date.now()
     await saveProviderTimestamps()
@@ -416,6 +452,8 @@ export const useProviderStore = defineStore('provider', () => {
     setGeminiSafety,
     getGeminiSafety,
     setAwsBedrockCredential,
-    getAwsBedrockCredential
+    getAwsBedrockCredential,
+    getVoiceAIConfig,
+    updateVoiceAIConfig
   }
 })
diff --git a/src/shared/chat.d.ts b/src/shared/chat.d.ts
index 26d514b99..8ba383299 100644
--- a/src/shared/chat.d.ts
+++ b/src/shared/chat.d.ts
@@ -91,6 +91,7 @@ export type AssistantMessageBlock = {
     | 'tool_call'
     | 'action'
     | 'image'
+    | 'audio'
     | 'artifact-thinking'
     | 'mcp_ui_resource'
   id?: string
diff --git a/src/shared/types/core/chat.ts b/src/shared/types/core/chat.ts
index 198ba868a..7066100d0 100644
--- a/src/shared/types/core/chat.ts
+++ b/src/shared/types/core/chat.ts
@@ -55,6 +55,7 @@ export type AssistantMessageBlock = {
     | 'tool_call'
     | 'action'
     | 'image'
+    | 'audio'
     | 'artifact-thinking'
     | 'mcp_ui_resource'
   content?: string

From cf5af65e3151a7de0a4d6aea625b90110a6f4e89 Mon Sep 17 00:00:00 2001
From: zhangmo8 <wegi866@gmail.com>
Date: Tue, 20 Jan 2026 18:30:28 +0800
Subject: [PATCH 2/4] feat: voice ai call phone

---
 electron.vite.config.ts                       |   5 +-
 .../components/VoiceAIProviderConfig.vue      |  57 ++++-
 .../src/components/chat-input/ChatInput.vue   | 218 +++++++++++++++++-
 .../components/message/MessageBlockAudio.vue  |   1 -
 src/renderer/src/i18n/en-US/chat.json         |  11 +
 src/renderer/src/i18n/en-US/settings.json     |   5 +
 src/renderer/src/i18n/zh-CN/chat.json         |  11 +
 src/renderer/src/i18n/zh-CN/settings.json     |   5 +
 src/renderer/src/stores/providerStore.ts      |  16 +-
 vitest.config.renderer.ts                     |  13 +-
 vitest.config.ts                              |  16 +-
 11 files changed, 341 insertions(+), 17 deletions(-)

diff --git a/electron.vite.config.ts b/electron.vite.config.ts
index b32eae5f7..effef1451 100644
--- a/electron.vite.config.ts
+++ b/electron.vite.config.ts
@@ -7,6 +7,8 @@ import monacoEditorPlugin from 'vite-plugin-monaco-editor-esm'
 import path from 'node:path'
 import tailwindcss from '@tailwindcss/vite'
 
+const isCustomElement = (tag: string) =>
+  tag === 'voice-agent-widget' || tag.startsWith('ui-resource-renderer')
 
 export default defineConfig({
   main: {
@@ -82,8 +84,7 @@ export default defineConfig({
       vue({
         template: {
           compilerOptions: {
-            // 将所有带短横线的标签名都视为自定义元素
-            isCustomElement: (tag) => tag.startsWith('ui-resource-renderer')
+            isCustomElement
           }
         }
       }),
diff --git a/src/renderer/settings/components/VoiceAIProviderConfig.vue b/src/renderer/settings/components/VoiceAIProviderConfig.vue
index 083a3c1be..8cdb2a3a8 100644
--- a/src/renderer/settings/components/VoiceAIProviderConfig.vue
+++ b/src/renderer/settings/components/VoiceAIProviderConfig.vue
@@ -39,12 +39,20 @@
           <Label :for="`${provider.id}-language`" class="text-xs font-medium">
             {{ t('settings.provider.voiceai.language.label') }}
           </Label>
-          <Input
-            :id="`${provider.id}-language`"
-            v-model="language"
-            :placeholder="t('settings.provider.voiceai.language.placeholder')"
-            :disabled="isHydrating"
-          />
+          <Select v-model="language" :disabled="isHydrating">
+            <SelectTrigger :id="`${provider.id}-language`">
+              <SelectValue :placeholder="t('settings.provider.voiceai.language.placeholder')" />
+            </SelectTrigger>
+            <SelectContent>
+              <SelectItem
+                v-for="option in languageOptions"
+                :key="option.value"
+                :value="option.value"
+              >
+                {{ option.label }}
+              </SelectItem>
+            </SelectContent>
+          </Select>
           <p class="text-xs text-muted-foreground">
             {{ t('settings.provider.voiceai.language.helper') }}
           </p>
@@ -64,6 +72,21 @@
             {{ t('settings.provider.voiceai.model.helper') }}
           </p>
         </div>
+
+        <div class="space-y-2 md:col-span-2">
+          <Label :for="`${provider.id}-agent-id`" class="text-xs font-medium">
+            {{ t('settings.provider.voiceai.agentId.label') }}
+          </Label>
+          <Input
+            :id="`${provider.id}-agent-id`"
+            v-model="agentId"
+            :placeholder="t('settings.provider.voiceai.agentId.placeholder')"
+            :disabled="isHydrating"
+          />
+          <p class="text-xs text-muted-foreground">
+            {{ t('settings.provider.voiceai.agentId.helper') }}
+          </p>
+        </div>
       </div>
 
       <Separator class="my-4" />
@@ -144,14 +167,30 @@ const ttsModel = ref('voiceai-tts-v1-latest')
 const language = ref('en')
 const temperature = ref(1)
 const topP = ref(0.8)
+const agentId = ref('')
 const isHydrating = ref(true)
 
+const languageOptions = [
+  { value: 'en', label: 'English (en)' },
+  { value: 'ca', label: 'Catalan (ca)' },
+  { value: 'sv', label: 'Swedish (sv)' },
+  { value: 'es', label: 'Spanish (es)' },
+  { value: 'fr', label: 'French (fr)' },
+  { value: 'de', label: 'German (de)' },
+  { value: 'it', label: 'Italian (it)' },
+  { value: 'pt', label: 'Portuguese (pt)' },
+  { value: 'pl', label: 'Polish (pl)' },
+  { value: 'ru', label: 'Russian (ru)' },
+  { value: 'nl', label: 'Dutch (nl)' }
+]
+
 type VoiceAIConfigUpdates = {
   audioFormat?: string
   model?: string
   language?: string
   temperature?: number
   topP?: number
+  agentId?: string
 }
 
 const persistUpdates = useDebounceFn(async (updates: VoiceAIConfigUpdates) => {
@@ -166,6 +205,7 @@ const loadConfig = async () => {
   language.value = config.language
   temperature.value = config.temperature
   topP.value = config.topP
+  agentId.value = config.agentId
   isHydrating.value = false
 }
 
@@ -188,6 +228,11 @@ watch(language, (value) => {
   void persistUpdates({ language: value })
 })
 
+watch(agentId, (value) => {
+  if (isHydrating.value) return
+  void persistUpdates({ agentId: value })
+})
+
 const onTemperatureChange = (value: number[] | undefined) => {
   if (!value || value[0] === undefined) return
   temperature.value = value[0]
diff --git a/src/renderer/src/components/chat-input/ChatInput.vue b/src/renderer/src/components/chat-input/ChatInput.vue
index 36847c8f5..d68d89c25 100644
--- a/src/renderer/src/components/chat-input/ChatInput.vue
+++ b/src/renderer/src/components/chat-input/ChatInput.vue
@@ -20,6 +20,7 @@
         "
         :class="[
           'flex flex-col gap-2 relative',
+          isCallActive ? 'pointer-events-none opacity-60' : '',
           variant === 'newThread'
             ? 'bg-card rounded-lg border p-2 shadow-sm'
             : 'border-t px-4 py-3 gap-3'
@@ -371,13 +372,29 @@
               />
             </ScrollablePopover>
 
+            <!-- Voice Call Button -->
+            <Tooltip v-if="shouldShowVoiceCall">
+              <TooltipTrigger as-child>
+                <Button
+                  variant="outline"
+                  size="icon"
+                  class="w-7 h-7 text-xs rounded-lg"
+                  :disabled="isStreaming || isCallActive"
+                  @click="startVoiceCall"
+                >
+                  <Icon icon="lucide:phone-call" class="w-4 h-4" />
+                </Button>
+              </TooltipTrigger>
+              <TooltipContent>{{ t('chat.call.start') }}</TooltipContent>
+            </Tooltip>
+
             <!-- Send/Stop Button -->
             <Button
               v-if="!isStreaming || variant === 'newThread'"
               variant="default"
               size="icon"
               class="w-7 h-7 text-xs rounded-lg"
-              :disabled="disabledSend"
+              :disabled="disabledSend || isCallActive"
               @click="emitSend"
             >
               <Icon icon="lucide:arrow-up" class="w-4 h-4" />
@@ -413,6 +430,33 @@
         </div>
       </div>
     </TooltipProvider>
+
+    <Dialog v-model:open="callDialogOpen">
+      <DialogContent class="w-105 p-4">
+        <DialogHeader>
+          <DialogTitle>{{ t('chat.call.title') }}</DialogTitle>
+          <DialogDescription>
+            {{ t('chat.call.description') }}
+          </DialogDescription>
+        </DialogHeader>
+        <div class="w-full max-w-105">
+          <voice-agent-widget
+            v-if="callDialogOpen"
+            ref="voiceWidget"
+            :key="callWidgetKey"
+            :api-key="voiceAIApiKey"
+            :data-agent-id="voiceAIAgentId"
+            :data-start-text="t('chat.call.start')"
+            :data-stop-text="t('chat.call.stop')"
+            data-show-time="true"
+            data-show-mic-status="true"
+            data-width="386"
+            data-height="220"
+            class="w-full"
+          />
+        </div>
+      </DialogContent>
+    </Dialog>
   </div>
 </template>
 
@@ -428,6 +472,13 @@ import { ModelType } from '@shared/model'
 // === Components ===
 import { Button } from '@shadcn/components/ui/button'
 import { Badge } from '@shadcn/components/ui/badge'
+import {
+  Dialog,
+  DialogContent,
+  DialogDescription,
+  DialogHeader,
+  DialogTitle
+} from '@shadcn/components/ui/dialog'
 import {
   Tooltip,
   TooltipContent,
@@ -476,6 +527,7 @@ import { useWorkspaceMention } from './composables/useWorkspaceMention'
 import { useChatStore } from '@/stores/chat'
 import { useLanguageStore } from '@/stores/language'
 import { useThemeStore } from '@/stores/theme'
+import { useProviderStore } from '@/stores/providerStore'
 
 // === Mention System ===
 import { Mention } from '../editor/mention/mention'
@@ -552,6 +604,7 @@ const stopResize = () => {
 const chatStore = useChatStore()
 const langStore = useLanguageStore()
 const themeStore = useThemeStore()
+const providerStore = useProviderStore()
 
 // === Presenters ===
 const windowPresenter = usePresenter('windowPresenter')
@@ -569,7 +622,7 @@ const fakeCaretStyle = computed(() => ({
   transform: `translate(${caretPosition.value.x}px, ${caretPosition.value.y}px)`,
   height: `${caretPosition.value.height}px`
 }))
-const showFakeCaret = computed(() => caretVisible.value && !props.disabled)
+const showFakeCaret = computed(() => caretVisible.value && !props.disabled && !isCallActive.value)
 
 // === Composable Integrations ===
 
@@ -753,6 +806,27 @@ const activeModelSource = computed(() => {
   return config.activeModel.value
 })
 
+const voiceAIAgentId = ref('')
+const callDialogOpen = ref(false)
+const callWidgetKey = ref(0)
+const voiceWidget = ref<HTMLElement | null>(null)
+const voiceWidgetReady = ref(false)
+const voiceWidgetLoading = ref(false)
+const callWidgetPulse = ref(false)
+let callWidgetPulseTimer: ReturnType<typeof setTimeout> | null = null
+let voiceWidgetScriptPromise: Promise<void> | null = null
+const isCallActive = computed(() => callDialogOpen.value)
+const voiceAIApiKey = computed(() => {
+  return providerStore.providers.find((provider) => provider.id === 'voiceai')?.apiKey || ''
+})
+const shouldShowVoiceCall = computed(() => {
+  if (props.variant !== 'chat') return false
+  const providerId = activeModelSource.value?.providerId
+  return (
+    providerId === 'voiceai' && voiceAIAgentId.value.length > 0 && voiceAIApiKey.value.length > 0
+  )
+})
+
 const acpWorkdir = useAcpWorkdir({
   activeModel: activeModelSource,
   conversationId
@@ -782,6 +856,102 @@ setSkillActivationHandler(activateSkill)
 // Extract isStreaming first so we can pass it to useAcpMode
 const { disabledSend, isStreaming } = sendButtonState
 
+const loadVoiceAIConfig = async () => {
+  const config = await providerStore.getVoiceAIConfig()
+  voiceAIAgentId.value = config.agentId?.trim() || ''
+}
+
+const hasVoiceWidgetDefinition = () => {
+  return typeof window !== 'undefined' && !!window.customElements?.get('voice-agent-widget')
+}
+
+const ensureVoiceAIWidgetScript = () => {
+  if (hasVoiceWidgetDefinition()) {
+    voiceWidgetReady.value = true
+    voiceWidgetLoading.value = false
+    return Promise.resolve()
+  }
+  if (voiceWidgetScriptPromise) return voiceWidgetScriptPromise
+
+  voiceWidgetLoading.value = true
+  voiceWidgetScriptPromise = new Promise<void>((resolve) => {
+    let settled = false
+    const finalize = (ready: boolean) => {
+      if (settled) return
+      settled = true
+      voiceWidgetReady.value = ready
+      voiceWidgetLoading.value = false
+      if (!ready) {
+        voiceWidgetScriptPromise = null
+      }
+      resolve()
+    }
+
+    const handleLoad = () => {
+      finalize(hasVoiceWidgetDefinition())
+    }
+    const handleError = () => {
+      finalize(false)
+    }
+    const fallbackTimer = setTimeout(() => {
+      finalize(hasVoiceWidgetDefinition())
+    }, 4000)
+
+    const existing = document.getElementById('voice-ai-widget-script') as HTMLScriptElement | null
+    if (existing) {
+      existing.addEventListener(
+        'load',
+        () => {
+          clearTimeout(fallbackTimer)
+          handleLoad()
+        },
+        { once: true }
+      )
+      existing.addEventListener(
+        'error',
+        () => {
+          clearTimeout(fallbackTimer)
+          handleError()
+        },
+        { once: true }
+      )
+      return
+    }
+
+    const script = document.createElement('script')
+    script.id = 'voice-ai-widget-script'
+    script.src = 'https://voice.ai/app/voice-agent-widget.js'
+    script.async = true
+    script.addEventListener(
+      'load',
+      () => {
+        clearTimeout(fallbackTimer)
+        handleLoad()
+      },
+      { once: true }
+    )
+    script.addEventListener(
+      'error',
+      () => {
+        clearTimeout(fallbackTimer)
+        handleError()
+      },
+      { once: true }
+    )
+    document.head.appendChild(script)
+  })
+
+  return voiceWidgetScriptPromise
+}
+
+const startVoiceCall = async () => {
+  await loadVoiceAIConfig()
+  if (!voiceAIAgentId.value || !voiceAIApiKey.value) return
+  void ensureVoiceAIWidgetScript()
+  callWidgetKey.value += 1
+  callDialogOpen.value = true
+}
+
 const acpMode = useAcpMode({
   activeModel: activeModelSource,
   conversationId,
@@ -857,6 +1027,10 @@ const handleModeSelect = async (mode: ChatMode) => {
 }
 
 const onKeydown = (e: KeyboardEvent) => {
+  if (isCallActive.value) {
+    e.preventDefault()
+    return
+  }
   if (e.code === 'Enter' && !e.shiftKey) {
     editorComposable.handleEditorEnter(e, disabledSend.value, emitSend)
     e.preventDefault()
@@ -978,6 +1152,11 @@ onMounted(async () => {
   editorComposable.setupEditorPasteHandler(files.handlePaste)
 
   nextTick(updateFakeCaretPosition)
+
+  if (activeModelSource.value?.providerId === 'voiceai') {
+    void ensureVoiceAIWidgetScript()
+    await loadVoiceAIConfig()
+  }
 })
 
 useEventListener(window, 'context-menu-ask-ai', handleContextMenuAskAI)
@@ -1000,6 +1179,9 @@ onUnmounted(() => {
   if (caretAnimationFrame) {
     cancelAnimationFrame(caretAnimationFrame)
   }
+  if (callWidgetPulseTimer) {
+    clearTimeout(callWidgetPulseTimer)
+  }
 
   setWorkspaceMention(null)
 })
@@ -1027,6 +1209,37 @@ watch(
   }
 )
 
+watch(
+  () => activeModelSource.value?.providerId,
+  (providerId) => {
+    if (providerId === 'voiceai') {
+      void loadVoiceAIConfig()
+      void ensureVoiceAIWidgetScript()
+    }
+  },
+  { immediate: true }
+)
+
+watch(
+  () => providerStore.voiceAIConfig?.agentId,
+  (agentId) => {
+    voiceAIAgentId.value = agentId?.trim() || ''
+  },
+  { immediate: true }
+)
+
+watch(callDialogOpen, (open) => {
+  if (!editor.isDestroyed) {
+    editor.setEditable(!open)
+  }
+  if (open) {
+    void ensureVoiceAIWidgetScript()
+    callWidgetPulse.value = false
+  } else {
+    callWidgetKey.value += 1
+  }
+})
+
 watch(
   () => [chatMode.currentMode.value, settings.value.webSearch] as const,
   ([mode, webSearch]) => {
@@ -1113,6 +1326,7 @@ defineExpose({
   55% {
     opacity: 0.9;
   }
+
   55%,
   100% {
     opacity: 0.35;
diff --git a/src/renderer/src/components/message/MessageBlockAudio.vue b/src/renderer/src/components/message/MessageBlockAudio.vue
index bbcda61aa..1a7c897bd 100644
--- a/src/renderer/src/components/message/MessageBlockAudio.vue
+++ b/src/renderer/src/components/message/MessageBlockAudio.vue
@@ -108,5 +108,4 @@ const audioSrc = computed(() => {
   }
   return `data:${resolvedAudioData.value.mimeType};base64,${raw}`
 })
-
 </script>
diff --git a/src/renderer/src/i18n/en-US/chat.json b/src/renderer/src/i18n/en-US/chat.json
index 54a1215b6..e571bcf7a 100644
--- a/src/renderer/src/i18n/en-US/chat.json
+++ b/src/renderer/src/i18n/en-US/chat.json
@@ -98,6 +98,17 @@
     "agent": "Agent",
     "acpAgent": "ACP Agent"
   },
+  "audio": {
+    "play": "Play",
+    "pause": "Pause"
+  },
+  "call": {
+    "title": "Voice.ai Call",
+    "description": "Click to connect to Voice.ai voice agent, speak after the call is connected.",
+    "start": "Start Voice Call",
+    "stop": "End Call",
+    "end": "Hang Up"
+  },
   "skills": {
     "indicator": {
       "active": "{count} skills active",
diff --git a/src/renderer/src/i18n/en-US/settings.json b/src/renderer/src/i18n/en-US/settings.json
index 09104c498..3457e9eeb 100644
--- a/src/renderer/src/i18n/en-US/settings.json
+++ b/src/renderer/src/i18n/en-US/settings.json
@@ -511,6 +511,11 @@
         "placeholder": "voiceai-tts-v1-latest",
         "helper": "See the Voice.ai docs for supported models."
       },
+      "agentId": {
+        "label": "Voice Agent ID",
+        "placeholder": "Paste voice agent ID",
+        "helper": "Required for real-time voice calls."
+      },
       "temperature": {
         "label": "Temperature",
         "helper": "Controls randomness (0-2)."
diff --git a/src/renderer/src/i18n/zh-CN/chat.json b/src/renderer/src/i18n/zh-CN/chat.json
index 5c3ca6202..445b8368e 100644
--- a/src/renderer/src/i18n/zh-CN/chat.json
+++ b/src/renderer/src/i18n/zh-CN/chat.json
@@ -98,6 +98,17 @@
     "agent": "Agent",
     "acpAgent": "ACP Agent"
   },
+  "audio": {
+    "play": "播放",
+    "pause": "暂停"
+  },
+  "call": {
+    "title": "Voice.ai 通话",
+    "description": "点击连接 Voice.ai 语音代理，接通电话后说话即可。",
+    "start": "开始语音通话",
+    "stop": "结束通话",
+    "end": "挂断"
+  },
   "skills": {
     "indicator": {
       "active": "{count} 个技能已激活",
diff --git a/src/renderer/src/i18n/zh-CN/settings.json b/src/renderer/src/i18n/zh-CN/settings.json
index 4e3ae8873..d98308120 100644
--- a/src/renderer/src/i18n/zh-CN/settings.json
+++ b/src/renderer/src/i18n/zh-CN/settings.json
@@ -412,6 +412,11 @@
         "placeholder": "voiceai-tts-v1-latest",
         "helper": "可选模型请查看 Voice.ai 文档。"
       },
+      "agentId": {
+        "label": "语音 Agent ID",
+        "placeholder": "粘贴 voice agent id",
+        "helper": "实时通话需要此 ID。"
+      },
       "temperature": {
         "label": "温度",
         "helper": "随机性参数（0-2）。"
diff --git a/src/renderer/src/stores/providerStore.ts b/src/renderer/src/stores/providerStore.ts
index aff55d07c..010ac0722 100644
--- a/src/renderer/src/stores/providerStore.ts
+++ b/src/renderer/src/stores/providerStore.ts
@@ -11,6 +11,7 @@ type VoiceAIConfig = {
   language: string
   temperature: number
   topP: number
+  agentId: string
 }
 
 const PROVIDER_ORDER_KEY = 'providerOrder'
@@ -38,6 +39,7 @@ export const useProviderStore = defineStore('provider', () => {
   const providerOrder = ref<string[]>([])
   const providerTimestamps = ref<Record<string, number>>({})
   const listenersRegistered = ref(false)
+  const voiceAIConfig = ref<VoiceAIConfig | null>(null)
 
   const providers = computed<LLM_PROVIDER[]>(() => {
     const data = providersQuery.data.value as LLM_PROVIDER[] | undefined
@@ -349,13 +351,16 @@ export const useProviderStore = defineStore('provider', () => {
   }
 
   const getVoiceAIConfig = async (): Promise<VoiceAIConfig> => {
-    return {
+    const config = {
       audioFormat: (await configP.getSetting<string>('voiceAI_audioFormat')) || 'mp3',
       model: (await configP.getSetting<string>('voiceAI_model')) || 'voiceai-tts-v1-latest',
       language: (await configP.getSetting<string>('voiceAI_language')) || 'en',
       temperature: (await configP.getSetting<number>('voiceAI_temperature')) ?? 1,
-      topP: (await configP.getSetting<number>('voiceAI_topP')) ?? 0.8
+      topP: (await configP.getSetting<number>('voiceAI_topP')) ?? 0.8,
+      agentId: (await configP.getSetting<string>('voiceAI_agentId')) || ''
     }
+    voiceAIConfig.value = config
+    return config
   }
 
   const updateVoiceAIConfig = async (updates: Partial<VoiceAIConfig>) => {
@@ -374,6 +379,10 @@ export const useProviderStore = defineStore('provider', () => {
     if (updates.topP !== undefined) {
       await configP.setSetting('voiceAI_topP', updates.topP)
     }
+    if (updates.agentId !== undefined) {
+      await configP.setSetting('voiceAI_agentId', updates.agentId)
+    }
+    await getVoiceAIConfig()
   }
 
   const updateProviderTimestamp = async (providerId: string) => {
@@ -454,6 +463,7 @@ export const useProviderStore = defineStore('provider', () => {
     setAwsBedrockCredential,
     getAwsBedrockCredential,
     getVoiceAIConfig,
-    updateVoiceAIConfig
+    updateVoiceAIConfig,
+    voiceAIConfig
   }
 })
diff --git a/vitest.config.renderer.ts b/vitest.config.renderer.ts
index a73fad4ca..4f05256e5 100644
--- a/vitest.config.renderer.ts
+++ b/vitest.config.renderer.ts
@@ -2,8 +2,19 @@ import { defineConfig } from 'vitest/config'
 import { resolve } from 'path'
 import vue from '@vitejs/plugin-vue'
 
+const isCustomElement = (tag: string) =>
+  tag === 'voice-agent-widget' || tag.startsWith('ui-resource-renderer')
+
 export default defineConfig({
-  plugins: [vue()],
+  plugins: [
+    vue({
+      template: {
+        compilerOptions: {
+          isCustomElement
+        }
+      }
+    })
+  ],
   resolve: {
     alias: {
       '@': resolve('src/renderer/src'),
diff --git a/vitest.config.ts b/vitest.config.ts
index b389113ba..ffc964aab 100644
--- a/vitest.config.ts
+++ b/vitest.config.ts
@@ -2,6 +2,18 @@ import { defineConfig } from 'vitest/config'
 import { resolve } from 'path'
 import vue from '@vitejs/plugin-vue'
 
+const isCustomElement = (tag: string) =>
+  tag === 'voice-agent-widget' || tag.startsWith('ui-resource-renderer')
+
+const vuePlugin = () =>
+  vue({
+    template: {
+      compilerOptions: {
+        isCustomElement
+      }
+    }
+  })
+
 export default defineConfig({
   test: {
     globals: true,
@@ -9,7 +21,7 @@ export default defineConfig({
     // This allows each test suite to use the correct alias resolution
     projects: [
       {
-        plugins: [vue()],
+        plugins: [vuePlugin()],
         test: {
           name: 'renderer',
           environment: 'jsdom',
@@ -30,7 +42,7 @@ export default defineConfig({
         }
       },
       {
-        plugins: [vue()],
+        plugins: [vuePlugin()],
         test: {
           name: 'main',
           environment: 'node',

From ec5ac932685a1de93c5f2dd142b72a192cb089ab Mon Sep 17 00:00:00 2001
From: zhangmo8 <wegi866@gmail.com>
Date: Wed, 21 Jan 2026 14:24:17 +0800
Subject: [PATCH 3/4] feat:Encapsulate components for subsequent use

---
 .../src/components/chat-input/ChatInput.vue   | 211 +---------------
 .../components/chat-input/VoiceCallWidget.vue | 239 ++++++++++++++++++
 2 files changed, 248 insertions(+), 202 deletions(-)
 create mode 100644 src/renderer/src/components/chat-input/VoiceCallWidget.vue

diff --git a/src/renderer/src/components/chat-input/ChatInput.vue b/src/renderer/src/components/chat-input/ChatInput.vue
index d68d89c25..5b2e40024 100644
--- a/src/renderer/src/components/chat-input/ChatInput.vue
+++ b/src/renderer/src/components/chat-input/ChatInput.vue
@@ -372,21 +372,12 @@
               />
             </ScrollablePopover>
 
-            <!-- Voice Call Button -->
-            <Tooltip v-if="shouldShowVoiceCall">
-              <TooltipTrigger as-child>
-                <Button
-                  variant="outline"
-                  size="icon"
-                  class="w-7 h-7 text-xs rounded-lg"
-                  :disabled="isStreaming || isCallActive"
-                  @click="startVoiceCall"
-                >
-                  <Icon icon="lucide:phone-call" class="w-4 h-4" />
-                </Button>
-              </TooltipTrigger>
-              <TooltipContent>{{ t('chat.call.start') }}</TooltipContent>
-            </Tooltip>
+            <VoiceCallWidget
+              :variant="variant"
+              :active-provider-id="activeModelSource?.providerId"
+              :is-streaming="isStreaming"
+              @active-change="isCallActive = $event"
+            />
 
             <!-- Send/Stop Button -->
             <Button
@@ -430,33 +421,6 @@
         </div>
       </div>
     </TooltipProvider>
-
-    <Dialog v-model:open="callDialogOpen">
-      <DialogContent class="w-105 p-4">
-        <DialogHeader>
-          <DialogTitle>{{ t('chat.call.title') }}</DialogTitle>
-          <DialogDescription>
-            {{ t('chat.call.description') }}
-          </DialogDescription>
-        </DialogHeader>
-        <div class="w-full max-w-105">
-          <voice-agent-widget
-            v-if="callDialogOpen"
-            ref="voiceWidget"
-            :key="callWidgetKey"
-            :api-key="voiceAIApiKey"
-            :data-agent-id="voiceAIAgentId"
-            :data-start-text="t('chat.call.start')"
-            :data-stop-text="t('chat.call.stop')"
-            data-show-time="true"
-            data-show-mic-status="true"
-            data-width="386"
-            data-height="220"
-            class="w-full"
-          />
-        </div>
-      </DialogContent>
-    </Dialog>
   </div>
 </template>
 
@@ -472,13 +436,6 @@ import { ModelType } from '@shared/model'
 // === Components ===
 import { Button } from '@shadcn/components/ui/button'
 import { Badge } from '@shadcn/components/ui/badge'
-import {
-  Dialog,
-  DialogContent,
-  DialogDescription,
-  DialogHeader,
-  DialogTitle
-} from '@shadcn/components/ui/dialog'
 import {
   Tooltip,
   TooltipContent,
@@ -502,6 +459,7 @@ import ModelChooser from '../ModelChooser.vue'
 import ModelIcon from '../icons/ModelIcon.vue'
 import McpToolsList from '../McpToolsList.vue'
 import SkillsIndicator from './SkillsIndicator.vue'
+import VoiceCallWidget from './VoiceCallWidget.vue'
 
 // === Composables ===
 import { usePresenter } from '@/composables/usePresenter'
@@ -527,7 +485,6 @@ import { useWorkspaceMention } from './composables/useWorkspaceMention'
 import { useChatStore } from '@/stores/chat'
 import { useLanguageStore } from '@/stores/language'
 import { useThemeStore } from '@/stores/theme'
-import { useProviderStore } from '@/stores/providerStore'
 
 // === Mention System ===
 import { Mention } from '../editor/mention/mention'
@@ -604,7 +561,6 @@ const stopResize = () => {
 const chatStore = useChatStore()
 const langStore = useLanguageStore()
 const themeStore = useThemeStore()
-const providerStore = useProviderStore()
 
 // === Presenters ===
 const windowPresenter = usePresenter('windowPresenter')
@@ -618,6 +574,7 @@ const modelSelectOpen = ref(false)
 const editorContainer = ref<HTMLElement | null>(null)
 const caretPosition = ref({ x: 0, y: 0, height: 18 })
 const caretVisible = ref(false)
+const isCallActive = ref(false)
 const fakeCaretStyle = computed(() => ({
   transform: `translate(${caretPosition.value.x}px, ${caretPosition.value.y}px)`,
   height: `${caretPosition.value.height}px`
@@ -806,27 +763,6 @@ const activeModelSource = computed(() => {
   return config.activeModel.value
 })
 
-const voiceAIAgentId = ref('')
-const callDialogOpen = ref(false)
-const callWidgetKey = ref(0)
-const voiceWidget = ref<HTMLElement | null>(null)
-const voiceWidgetReady = ref(false)
-const voiceWidgetLoading = ref(false)
-const callWidgetPulse = ref(false)
-let callWidgetPulseTimer: ReturnType<typeof setTimeout> | null = null
-let voiceWidgetScriptPromise: Promise<void> | null = null
-const isCallActive = computed(() => callDialogOpen.value)
-const voiceAIApiKey = computed(() => {
-  return providerStore.providers.find((provider) => provider.id === 'voiceai')?.apiKey || ''
-})
-const shouldShowVoiceCall = computed(() => {
-  if (props.variant !== 'chat') return false
-  const providerId = activeModelSource.value?.providerId
-  return (
-    providerId === 'voiceai' && voiceAIAgentId.value.length > 0 && voiceAIApiKey.value.length > 0
-  )
-})
-
 const acpWorkdir = useAcpWorkdir({
   activeModel: activeModelSource,
   conversationId
@@ -856,102 +792,6 @@ setSkillActivationHandler(activateSkill)
 // Extract isStreaming first so we can pass it to useAcpMode
 const { disabledSend, isStreaming } = sendButtonState
 
-const loadVoiceAIConfig = async () => {
-  const config = await providerStore.getVoiceAIConfig()
-  voiceAIAgentId.value = config.agentId?.trim() || ''
-}
-
-const hasVoiceWidgetDefinition = () => {
-  return typeof window !== 'undefined' && !!window.customElements?.get('voice-agent-widget')
-}
-
-const ensureVoiceAIWidgetScript = () => {
-  if (hasVoiceWidgetDefinition()) {
-    voiceWidgetReady.value = true
-    voiceWidgetLoading.value = false
-    return Promise.resolve()
-  }
-  if (voiceWidgetScriptPromise) return voiceWidgetScriptPromise
-
-  voiceWidgetLoading.value = true
-  voiceWidgetScriptPromise = new Promise<void>((resolve) => {
-    let settled = false
-    const finalize = (ready: boolean) => {
-      if (settled) return
-      settled = true
-      voiceWidgetReady.value = ready
-      voiceWidgetLoading.value = false
-      if (!ready) {
-        voiceWidgetScriptPromise = null
-      }
-      resolve()
-    }
-
-    const handleLoad = () => {
-      finalize(hasVoiceWidgetDefinition())
-    }
-    const handleError = () => {
-      finalize(false)
-    }
-    const fallbackTimer = setTimeout(() => {
-      finalize(hasVoiceWidgetDefinition())
-    }, 4000)
-
-    const existing = document.getElementById('voice-ai-widget-script') as HTMLScriptElement | null
-    if (existing) {
-      existing.addEventListener(
-        'load',
-        () => {
-          clearTimeout(fallbackTimer)
-          handleLoad()
-        },
-        { once: true }
-      )
-      existing.addEventListener(
-        'error',
-        () => {
-          clearTimeout(fallbackTimer)
-          handleError()
-        },
-        { once: true }
-      )
-      return
-    }
-
-    const script = document.createElement('script')
-    script.id = 'voice-ai-widget-script'
-    script.src = 'https://voice.ai/app/voice-agent-widget.js'
-    script.async = true
-    script.addEventListener(
-      'load',
-      () => {
-        clearTimeout(fallbackTimer)
-        handleLoad()
-      },
-      { once: true }
-    )
-    script.addEventListener(
-      'error',
-      () => {
-        clearTimeout(fallbackTimer)
-        handleError()
-      },
-      { once: true }
-    )
-    document.head.appendChild(script)
-  })
-
-  return voiceWidgetScriptPromise
-}
-
-const startVoiceCall = async () => {
-  await loadVoiceAIConfig()
-  if (!voiceAIAgentId.value || !voiceAIApiKey.value) return
-  void ensureVoiceAIWidgetScript()
-  callWidgetKey.value += 1
-  callDialogOpen.value = true
-}
-
 const acpMode = useAcpMode({
   activeModel: activeModelSource,
   conversationId,
@@ -1152,11 +992,6 @@ onMounted(async () => {
   editorComposable.setupEditorPasteHandler(files.handlePaste)
 
   nextTick(updateFakeCaretPosition)
-
-  if (activeModelSource.value?.providerId === 'voiceai') {
-    void ensureVoiceAIWidgetScript()
-    await loadVoiceAIConfig()
-  }
 })
 
 useEventListener(window, 'context-menu-ask-ai', handleContextMenuAskAI)
@@ -1179,9 +1014,6 @@ onUnmounted(() => {
   if (caretAnimationFrame) {
     cancelAnimationFrame(caretAnimationFrame)
   }
-  if (callWidgetPulseTimer) {
-    clearTimeout(callWidgetPulseTimer)
-  }
 
   setWorkspaceMention(null)
 })
@@ -1209,35 +1041,10 @@ watch(
   }
 )
 
-watch(
-  () => activeModelSource.value?.providerId,
-  (providerId) => {
-    if (providerId === 'voiceai') {
-      void loadVoiceAIConfig()
-      void ensureVoiceAIWidgetScript()
-    }
-  },
-  { immediate: true }
-)
-
-watch(
-  () => providerStore.voiceAIConfig?.agentId,
-  (agentId) => {
-    voiceAIAgentId.value = agentId?.trim() || ''
-  },
-  { immediate: true }
-)
-
-watch(callDialogOpen, (open) => {
+watch(isCallActive, (open) => {
   if (!editor.isDestroyed) {
     editor.setEditable(!open)
   }
-  if (open) {
-    void ensureVoiceAIWidgetScript()
-    callWidgetPulse.value = false
-  } else {
-    callWidgetKey.value += 1
-  }
 })
 
 watch(
diff --git a/src/renderer/src/components/chat-input/VoiceCallWidget.vue b/src/renderer/src/components/chat-input/VoiceCallWidget.vue
new file mode 100644
index 000000000..7f9c24cb1
--- /dev/null
+++ b/src/renderer/src/components/chat-input/VoiceCallWidget.vue
@@ -0,0 +1,239 @@
+<template>
+  <Tooltip v-if="shouldShowVoiceCall">
+    <TooltipTrigger as-child>
+      <Button
+        variant="outline"
+        size="icon"
+        class="w-7 h-7 text-xs rounded-lg"
+        :disabled="isStreaming || isCallActive"
+        @click="startVoiceCall"
+      >
+        <Icon icon="lucide:phone-call" class="w-4 h-4" />
+      </Button>
+    </TooltipTrigger>
+    <TooltipContent>{{ t('chat.call.start') }}</TooltipContent>
+  </Tooltip>
+
+  <Dialog v-model:open="callDialogOpen">
+    <DialogContent class="w-105 p-4">
+      <DialogHeader>
+        <DialogTitle>{{ t('chat.call.title') }}</DialogTitle>
+        <DialogDescription>
+          {{ t('chat.call.description') }}
+        </DialogDescription>
+      </DialogHeader>
+      <div class="w-full max-w-105">
+        <voice-agent-widget
+          v-if="callDialogOpen"
+          ref="voiceWidget"
+          :key="callWidgetKey"
+          :api-key="voiceAIApiKey"
+          :data-agent-id="voiceAIAgentId"
+          :data-start-text="t('chat.call.start')"
+          :data-stop-text="t('chat.call.stop')"
+          data-show-time="true"
+          data-show-mic-status="true"
+          data-width="386"
+          data-height="220"
+          class="w-full"
+        />
+      </div>
+    </DialogContent>
+  </Dialog>
+</template>
+
+<script setup lang="ts">
+import { computed, onMounted, onUnmounted, ref, watch } from 'vue'
+import { useI18n } from 'vue-i18n'
+import { Icon } from '@iconify/vue'
+import { Button } from '@shadcn/components/ui/button'
+import {
+  Dialog,
+  DialogContent,
+  DialogDescription,
+  DialogHeader,
+  DialogTitle
+} from '@shadcn/components/ui/dialog'
+import { Tooltip, TooltipContent, TooltipTrigger } from '@shadcn/components/ui/tooltip'
+import { useProviderStore } from '@/stores/providerStore'
+
+const props = withDefaults(
+  defineProps<{
+    variant: 'chat' | 'newThread'
+    activeProviderId?: string | null
+    isStreaming?: boolean
+  }>(),
+  {
+    activeProviderId: null,
+    isStreaming: false
+  }
+)
+
+const emit = defineEmits<{
+  (event: 'active-change', value: boolean): void
+}>()
+
+const { t } = useI18n()
+const providerStore = useProviderStore()
+
+const voiceAIAgentId = ref('')
+const callDialogOpen = ref(false)
+const callWidgetKey = ref(0)
+const voiceWidget = ref<HTMLElement | null>(null)
+const voiceWidgetReady = ref(false)
+const voiceWidgetLoading = ref(false)
+const callWidgetPulse = ref(false)
+let callWidgetPulseTimer: ReturnType<typeof setTimeout> | null = null
+let voiceWidgetScriptPromise: Promise<void> | null = null
+const isCallActive = computed(() => callDialogOpen.value)
+
+const voiceAIApiKey = computed(() => {
+  return providerStore.providers.find((provider) => provider.id === 'voiceai')?.apiKey || ''
+})
+
+const shouldShowVoiceCall = computed(() => {
+  if (props.variant !== 'chat') return false
+  const providerId = props.activeProviderId
+  return (
+    providerId === 'voiceai' && voiceAIAgentId.value.length > 0 && voiceAIApiKey.value.length > 0
+  )
+})
+
+const loadVoiceAIConfig = async () => {
+  const config = await providerStore.getVoiceAIConfig()
+  voiceAIAgentId.value = config.agentId?.trim() || ''
+}
+
+const hasVoiceWidgetDefinition = () => {
+  return typeof window !== 'undefined' && !!window.customElements?.get('voice-agent-widget')
+}
+
+const ensureVoiceAIWidgetScript = () => {
+  if (hasVoiceWidgetDefinition()) {
+    voiceWidgetReady.value = true
+    voiceWidgetLoading.value = false
+    return Promise.resolve()
+  }
+  if (voiceWidgetScriptPromise) return voiceWidgetScriptPromise
+
+  voiceWidgetLoading.value = true
+  voiceWidgetScriptPromise = new Promise<void>((resolve) => {
+    let settled = false
+    const finalize = (ready: boolean) => {
+      if (settled) return
+      settled = true
+      voiceWidgetReady.value = ready
+      voiceWidgetLoading.value = false
+      if (!ready) {
+        voiceWidgetScriptPromise = null
+      }
+      resolve()
+    }
+
+    const handleLoad = () => {
+      finalize(hasVoiceWidgetDefinition())
+    }
+    const handleError = () => {
+      finalize(false)
+    }
+    const fallbackTimer = setTimeout(() => {
+      finalize(hasVoiceWidgetDefinition())
+    }, 4000)
+
+    const existing = document.getElementById('voice-ai-widget-script') as HTMLScriptElement | null
+    if (existing) {
+      existing.addEventListener(
+        'load',
+        () => {
+          clearTimeout(fallbackTimer)
+          handleLoad()
+        },
+        { once: true }
+      )
+      existing.addEventListener(
+        'error',
+        () => {
+          clearTimeout(fallbackTimer)
+          handleError()
+        },
+        { once: true }
+      )
+      return
+    }
+
+    const script = document.createElement('script')
+    script.id = 'voice-ai-widget-script'
+    script.src = 'https://voice.ai/app/voice-agent-widget.js'
+    script.async = true
+    script.addEventListener(
+      'load',
+      () => {
+        clearTimeout(fallbackTimer)
+        handleLoad()
+      },
+      { once: true }
+    )
+    script.addEventListener(
+      'error',
+      () => {
+        clearTimeout(fallbackTimer)
+        handleError()
+      },
+      { once: true }
+    )
+    document.head.appendChild(script)
+  })
+
+  return voiceWidgetScriptPromise
+}
+
+const startVoiceCall = async () => {
+  await loadVoiceAIConfig()
+  if (!voiceAIAgentId.value || !voiceAIApiKey.value) return
+  void ensureVoiceAIWidgetScript()
+  callWidgetKey.value += 1
+  callDialogOpen.value = true
+}
+
+onMounted(async () => {
+  if (props.activeProviderId === 'voiceai') {
+    void ensureVoiceAIWidgetScript()
+    await loadVoiceAIConfig()
+  }
+})
+
+onUnmounted(() => {
+  if (callWidgetPulseTimer) {
+    clearTimeout(callWidgetPulseTimer)
+  }
+})
+
+watch(
+  () => props.activeProviderId,
+  (providerId) => {
+    if (providerId === 'voiceai') {
+      void loadVoiceAIConfig()
+      void ensureVoiceAIWidgetScript()
+    }
+  },
+  { immediate: true }
+)
+
+watch(
+  () => providerStore.voiceAIConfig?.agentId,
+  (agentId) => {
+    voiceAIAgentId.value = agentId?.trim() || ''
+  },
+  { immediate: true }
+)
+
+watch(callDialogOpen, (open) => {
+  emit('active-change', open)
+  if (open) {
+    void ensureVoiceAIWidgetScript()
+    callWidgetPulse.value = false
+  } else {
+    callWidgetKey.value += 1
+  }
+})
+</script>

From 47f3110844d4ab55e74269f6c9fa5b87348e4dec Mon Sep 17 00:00:00 2001
From: zhangmo8 <wegi866@gmail.com>
Date: Fri, 30 Jan 2026 13:56:15 +0800
Subject: [PATCH 4/4] chore: update i18n

---
 src/renderer/src/i18n/da-DK/chat.json     | 11 ++++++++
 src/renderer/src/i18n/da-DK/settings.json | 32 +++++++++++++++++++++++
 src/renderer/src/i18n/fa-IR/chat.json     | 11 ++++++++
 src/renderer/src/i18n/fa-IR/settings.json | 32 +++++++++++++++++++++++
 src/renderer/src/i18n/fr-FR/chat.json     | 11 ++++++++
 src/renderer/src/i18n/fr-FR/settings.json | 32 +++++++++++++++++++++++
 src/renderer/src/i18n/he-IL/chat.json     | 11 ++++++++
 src/renderer/src/i18n/he-IL/settings.json | 32 +++++++++++++++++++++++
 src/renderer/src/i18n/ja-JP/chat.json     | 11 ++++++++
 src/renderer/src/i18n/ja-JP/settings.json | 32 +++++++++++++++++++++++
 src/renderer/src/i18n/ko-KR/chat.json     | 11 ++++++++
 src/renderer/src/i18n/ko-KR/settings.json | 32 +++++++++++++++++++++++
 src/renderer/src/i18n/pt-BR/chat.json     | 11 ++++++++
 src/renderer/src/i18n/pt-BR/settings.json | 32 +++++++++++++++++++++++
 src/renderer/src/i18n/ru-RU/chat.json     | 11 ++++++++
 src/renderer/src/i18n/ru-RU/settings.json | 32 +++++++++++++++++++++++
 src/renderer/src/i18n/zh-HK/chat.json     | 11 ++++++++
 src/renderer/src/i18n/zh-HK/settings.json | 32 +++++++++++++++++++++++
 src/renderer/src/i18n/zh-TW/chat.json     | 11 ++++++++
 src/renderer/src/i18n/zh-TW/settings.json | 32 +++++++++++++++++++++++
 20 files changed, 430 insertions(+)

diff --git a/src/renderer/src/i18n/da-DK/chat.json b/src/renderer/src/i18n/da-DK/chat.json
index 827efae43..ff02b9e32 100644
--- a/src/renderer/src/i18n/da-DK/chat.json
+++ b/src/renderer/src/i18n/da-DK/chat.json
@@ -148,6 +148,17 @@
     },
     "title": "arbejdsrum"
   },
+  "audio": {
+    "play": "Afspil",
+    "pause": "Pause"
+  },
+  "call": {
+    "title": "Voice.ai-opkald",
+    "description": "Klik for at forbinde til Voice.ai-stemmeagenten, og tal når opkaldet er forbundet.",
+    "start": "Start taleopkald",
+    "stop": "Afslut opkald",
+    "end": "Læg på"
+  },
   "skills": {
     "indicator": {
       "active": "{count} færdigheder er aktiveret",
diff --git a/src/renderer/src/i18n/da-DK/settings.json b/src/renderer/src/i18n/da-DK/settings.json
index bb381252c..717a23ab8 100644
--- a/src/renderer/src/i18n/da-DK/settings.json
+++ b/src/renderer/src/i18n/da-DK/settings.json
@@ -315,6 +315,38 @@
     "stopModel": "Stop model",
     "pulling": "Henter...",
     "runModel": "Kør model",
+    "voiceai": {
+      "title": "Voice.ai tekst-til-tale",
+      "description": "Generér tale fra tekst. Stemmer vises i modellisten nedenfor.",
+      "audioFormat": {
+        "label": "Lydformat",
+        "placeholder": "Vælg format",
+        "helper": "MP3 anbefales i de fleste tilfælde."
+      },
+      "language": {
+        "label": "Sprog",
+        "placeholder": "f.eks. en",
+        "helper": "Understøttet: en, ca, sv, es, fr, de, it, pt, pl, ru, nl."
+      },
+      "model": {
+        "label": "TTS-model",
+        "placeholder": "voiceai-tts-v1-latest",
+        "helper": "Se Voice.ai-dokumentationen for understøttede modeller."
+      },
+      "agentId": {
+        "label": "Voice Agent ID",
+        "placeholder": "Indsæt voice agent-id",
+        "helper": "Kræves til realtidsopkald."
+      },
+      "temperature": {
+        "label": "Temperatur",
+        "helper": "Styrer tilfældighed (0-2)."
+      },
+      "topP": {
+        "label": "Top P",
+        "helper": "Nucleus sampling (0-1)."
+      }
+    },
     "dialog": {
       "disableModel": {
         "title": "Bekræft deaktivering af model",
diff --git a/src/renderer/src/i18n/fa-IR/chat.json b/src/renderer/src/i18n/fa-IR/chat.json
index ee096d360..1259a0318 100644
--- a/src/renderer/src/i18n/fa-IR/chat.json
+++ b/src/renderer/src/i18n/fa-IR/chat.json
@@ -148,6 +148,17 @@
     },
     "title": "فضای کار"
   },
+  "audio": {
+    "play": "پخش",
+    "pause": "مکث"
+  },
+  "call": {
+    "title": "تماس Voice.ai",
+    "description": "برای اتصال به عامل صوتی Voice.ai کلیک کنید؛ پس از برقراری تماس صحبت کنید.",
+    "start": "شروع تماس صوتی",
+    "stop": "پایان تماس",
+    "end": "قطع تماس"
+  },
   "skills": {
     "indicator": {
       "active": "{count} مهارت فعال شده",
diff --git a/src/renderer/src/i18n/fa-IR/settings.json b/src/renderer/src/i18n/fa-IR/settings.json
index 437dfba8b..7ca07cdf7 100644
--- a/src/renderer/src/i18n/fa-IR/settings.json
+++ b/src/renderer/src/i18n/fa-IR/settings.json
@@ -327,6 +327,38 @@
     "stopModel": "ایست مدل",
     "pulling": "در حال دریافت...",
     "runModel": "اجرای مدل",
+    "voiceai": {
+      "title": "تبدیل متن به گفتار Voice.ai",
+      "description": "گفتار را از متن تولید کنید. صداها در فهرست مدل‌ها در پایین نمایش داده می‌شوند.",
+      "audioFormat": {
+        "label": "قالب صوتی",
+        "placeholder": "انتخاب قالب",
+        "helper": "برای بیشتر موارد MP3 توصیه می‌شود."
+      },
+      "language": {
+        "label": "زبان",
+        "placeholder": "مثلاً en",
+        "helper": "پشتیبانی‌شده: en, ca, sv, es, fr, de, it, pt, pl, ru, nl."
+      },
+      "model": {
+        "label": "مدل TTS",
+        "placeholder": "voiceai-tts-v1-latest",
+        "helper": "برای مدل‌های پشتیبانی‌شده به مستندات Voice.ai مراجعه کنید."
+      },
+      "agentId": {
+        "label": "شناسه عامل صوتی",
+        "placeholder": "شناسه voice agent را جای‌گذاری کنید",
+        "helper": "برای تماس‌های بلادرنگ لازم است."
+      },
+      "temperature": {
+        "label": "دما",
+        "helper": "تصادفی‌بودن را کنترل می‌کند (0-2)."
+      },
+      "topP": {
+        "label": "Top P",
+        "helper": "نمونه‌گیری هسته‌ای (0-1)."
+      }
+    },
     "dialog": {
       "disableModel": {
         "title": "پذیرش خاموش کردن مدل",
diff --git a/src/renderer/src/i18n/fr-FR/chat.json b/src/renderer/src/i18n/fr-FR/chat.json
index f7e8fc537..d2c655f9d 100644
--- a/src/renderer/src/i18n/fr-FR/chat.json
+++ b/src/renderer/src/i18n/fr-FR/chat.json
@@ -148,6 +148,17 @@
     },
     "title": "espace de travail"
   },
+  "audio": {
+    "play": "Lire",
+    "pause": "Pause"
+  },
+  "call": {
+    "title": "Appel Voice.ai",
+    "description": "Cliquez pour vous connecter à l’agent vocal Voice.ai, puis parlez une fois l’appel établi.",
+    "start": "Démarrer l’appel vocal",
+    "stop": "Terminer l’appel",
+    "end": "Raccrocher"
+  },
   "skills": {
     "indicator": {
       "active": "{count} compétences activées",
diff --git a/src/renderer/src/i18n/fr-FR/settings.json b/src/renderer/src/i18n/fr-FR/settings.json
index 3b1fdf227..c340ee5ea 100644
--- a/src/renderer/src/i18n/fr-FR/settings.json
+++ b/src/renderer/src/i18n/fr-FR/settings.json
@@ -327,6 +327,38 @@
     "stopModel": "Arrêter le modèle",
     "pulling": "Récupération...",
     "runModel": "Exécuter le modèle",
+    "voiceai": {
+      "title": "Synthèse vocale Voice.ai",
+      "description": "Générez de la parole à partir du texte. Les voix apparaissent dans la liste des modèles ci-dessous.",
+      "audioFormat": {
+        "label": "Format audio",
+        "placeholder": "Sélectionner un format",
+        "helper": "MP3 est recommandé dans la plupart des cas."
+      },
+      "language": {
+        "label": "Langue",
+        "placeholder": "ex. en",
+        "helper": "Pris en charge : en, ca, sv, es, fr, de, it, pt, pl, ru, nl."
+      },
+      "model": {
+        "label": "Modèle TTS",
+        "placeholder": "voiceai-tts-v1-latest",
+        "helper": "Voir la documentation Voice.ai pour les modèles pris en charge."
+      },
+      "agentId": {
+        "label": "ID de l’agent vocal",
+        "placeholder": "Collez l’ID de l’agent vocal",
+        "helper": "Requis pour les appels vocaux en temps réel."
+      },
+      "temperature": {
+        "label": "Température",
+        "helper": "Contrôle l’aléatoire (0-2)."
+      },
+      "topP": {
+        "label": "Top P",
+        "helper": "Échantillonnage nucleus (0-1)."
+      }
+    },
     "dialog": {
       "disableModel": {
         "title": "Confirmer la désactivation du modèle",
diff --git a/src/renderer/src/i18n/he-IL/chat.json b/src/renderer/src/i18n/he-IL/chat.json
index bfa3ce0fd..073c0ea66 100644
--- a/src/renderer/src/i18n/he-IL/chat.json
+++ b/src/renderer/src/i18n/he-IL/chat.json
@@ -148,6 +148,17 @@
     },
     "title": "סביבת עבודה"
   },
+  "audio": {
+    "play": "נגן",
+    "pause": "השהה"
+  },
+  "call": {
+    "title": "שיחת Voice.ai",
+    "description": "לחץ כדי להתחבר לסוכן הקולי של Voice.ai, דבר לאחר שהשיחה התחברה.",
+    "start": "התחל שיחת קול",
+    "stop": "סיים שיחה",
+    "end": "נתק"
+  },
   "skills": {
     "indicator": {
       "active": "{count} כישורים הופעלו",
diff --git a/src/renderer/src/i18n/he-IL/settings.json b/src/renderer/src/i18n/he-IL/settings.json
index 04f4990c8..5158fbae3 100644
--- a/src/renderer/src/i18n/he-IL/settings.json
+++ b/src/renderer/src/i18n/he-IL/settings.json
@@ -327,6 +327,38 @@
     "stopModel": "עצור מודל",
     "pulling": "מושך...",
     "runModel": "הרץ מודל",
+    "voiceai": {
+      "title": "המרת טקסט לדיבור של Voice.ai",
+      "description": "יצירת דיבור מטקסט. קולות יופיעו ברשימת המודלים למטה.",
+      "audioFormat": {
+        "label": "פורמט שמע",
+        "placeholder": "בחר פורמט",
+        "helper": "מומלץ MP3 ברוב המקרים."
+      },
+      "language": {
+        "label": "שפה",
+        "placeholder": "למשל en",
+        "helper": "נתמך: en, ca, sv, es, fr, de, it, pt, pl, ru, nl."
+      },
+      "model": {
+        "label": "מודל TTS",
+        "placeholder": "voiceai-tts-v1-latest",
+        "helper": "ראו את מסמכי Voice.ai למודלים הנתמכים."
+      },
+      "agentId": {
+        "label": "מזהה סוכן קולי",
+        "placeholder": "הדבק מזהה סוכן קולי",
+        "helper": "נדרש לשיחות קול בזמן אמת."
+      },
+      "temperature": {
+        "label": "טמפרטורה",
+        "helper": "שולט ברנדומליות (0-2)."
+      },
+      "topP": {
+        "label": "Top P",
+        "helper": "דגימת Nucleus (0-1)."
+      }
+    },
     "dialog": {
       "disableModel": {
         "title": "אשר השבתת מודל",
diff --git a/src/renderer/src/i18n/ja-JP/chat.json b/src/renderer/src/i18n/ja-JP/chat.json
index ded9d3791..f16b44812 100644
--- a/src/renderer/src/i18n/ja-JP/chat.json
+++ b/src/renderer/src/i18n/ja-JP/chat.json
@@ -148,6 +148,17 @@
     },
     "title": "ワークスペース"
   },
+  "audio": {
+    "play": "再生",
+    "pause": "一時停止"
+  },
+  "call": {
+    "title": "Voice.ai 通話",
+    "description": "クリックして Voice.ai 音声エージェントに接続し、通話がつながったら話してください。",
+    "start": "音声通話を開始",
+    "stop": "通話を終了",
+    "end": "切断"
+  },
   "skills": {
     "indicator": {
       "active": "{count}個のスキルが有効化されました",
diff --git a/src/renderer/src/i18n/ja-JP/settings.json b/src/renderer/src/i18n/ja-JP/settings.json
index 4d194a2df..d4f52b161 100644
--- a/src/renderer/src/i18n/ja-JP/settings.json
+++ b/src/renderer/src/i18n/ja-JP/settings.json
@@ -327,6 +327,38 @@
     "stopModel": "モデルを停止",
     "pulling": "取得中...",
     "runModel": "モデルを実行",
+    "voiceai": {
+      "title": "Voice.ai テキスト読み上げ",
+      "description": "テキストから音声を生成します。音声は下のモデル一覧に表示されます。",
+      "audioFormat": {
+        "label": "音声形式",
+        "placeholder": "形式を選択",
+        "helper": "多くのケースでは MP3 を推奨します。"
+      },
+      "language": {
+        "label": "言語",
+        "placeholder": "例: en",
+        "helper": "対応言語: en, ca, sv, es, fr, de, it, pt, pl, ru, nl。"
+      },
+      "model": {
+        "label": "TTS モデル",
+        "placeholder": "voiceai-tts-v1-latest",
+        "helper": "対応モデルは Voice.ai のドキュメントを参照してください。"
+      },
+      "agentId": {
+        "label": "音声エージェントID",
+        "placeholder": "voice agent id を貼り付け",
+        "helper": "リアルタイム通話に必要です。"
+      },
+      "temperature": {
+        "label": "温度",
+        "helper": "ランダム性を制御します (0-2)。"
+      },
+      "topP": {
+        "label": "Top P",
+        "helper": "Nucleus サンプリング (0-1)。"
+      }
+    },
     "dialog": {
       "disableModel": {
         "title": "モデルを無効にする確認",
diff --git a/src/renderer/src/i18n/ko-KR/chat.json b/src/renderer/src/i18n/ko-KR/chat.json
index c6b92d4b3..a419aca98 100644
--- a/src/renderer/src/i18n/ko-KR/chat.json
+++ b/src/renderer/src/i18n/ko-KR/chat.json
@@ -148,6 +148,17 @@
     },
     "title": "작업 공간"
   },
+  "audio": {
+    "play": "재생",
+    "pause": "일시정지"
+  },
+  "call": {
+    "title": "Voice.ai 통화",
+    "description": "클릭하여 Voice.ai 음성 에이전트에 연결한 뒤, 통화가 연결되면 말하세요.",
+    "start": "음성 통화 시작",
+    "stop": "통화 종료",
+    "end": "끊기"
+  },
   "skills": {
     "indicator": {
       "active": "{count}개 스킬 활성화됨",
diff --git a/src/renderer/src/i18n/ko-KR/settings.json b/src/renderer/src/i18n/ko-KR/settings.json
index 5c44855bc..2a450dec0 100644
--- a/src/renderer/src/i18n/ko-KR/settings.json
+++ b/src/renderer/src/i18n/ko-KR/settings.json
@@ -326,6 +326,38 @@
     "stopModel": "모델 중지",
     "pulling": "가져오는 중...",
     "runModel": "모델 실행",
+    "voiceai": {
+      "title": "Voice.ai 텍스트 음성 변환",
+      "description": "텍스트로부터 음성을 생성합니다. 음성은 아래 모델 목록에 표시됩니다.",
+      "audioFormat": {
+        "label": "오디오 형식",
+        "placeholder": "형식 선택",
+        "helper": "대부분의 경우 MP3를 권장합니다."
+      },
+      "language": {
+        "label": "언어",
+        "placeholder": "예: en",
+        "helper": "지원: en, ca, sv, es, fr, de, it, pt, pl, ru, nl."
+      },
+      "model": {
+        "label": "TTS 모델",
+        "placeholder": "voiceai-tts-v1-latest",
+        "helper": "지원되는 모델은 Voice.ai 문서를 참고하세요."
+      },
+      "agentId": {
+        "label": "음성 에이전트 ID",
+        "placeholder": "voice agent id 붙여넣기",
+        "helper": "실시간 음성 통화에 필요합니다."
+      },
+      "temperature": {
+        "label": "온도",
+        "helper": "무작위성을 제어합니다 (0-2)."
+      },
+      "topP": {
+        "label": "Top P",
+        "helper": "Nucleus 샘플링 (0-1)."
+      }
+    },
     "dialog": {
       "disableModel": {
         "title": "모델 비활성화 확인",
diff --git a/src/renderer/src/i18n/pt-BR/chat.json b/src/renderer/src/i18n/pt-BR/chat.json
index 728e7e450..0fa1977ff 100644
--- a/src/renderer/src/i18n/pt-BR/chat.json
+++ b/src/renderer/src/i18n/pt-BR/chat.json
@@ -148,6 +148,17 @@
     },
     "title": "área de trabalho"
   },
+  "audio": {
+    "play": "Reproduzir",
+    "pause": "Pausar"
+  },
+  "call": {
+    "title": "Chamada Voice.ai",
+    "description": "Clique para conectar ao agente de voz da Voice.ai e fale após a chamada ser conectada.",
+    "start": "Iniciar chamada de voz",
+    "stop": "Encerrar chamada",
+    "end": "Desligar"
+  },
   "skills": {
     "indicator": {
       "active": "{count} habilidades ativadas",
diff --git a/src/renderer/src/i18n/pt-BR/settings.json b/src/renderer/src/i18n/pt-BR/settings.json
index 6e90f25e8..72eef6e4a 100644
--- a/src/renderer/src/i18n/pt-BR/settings.json
+++ b/src/renderer/src/i18n/pt-BR/settings.json
@@ -327,6 +327,38 @@
     "stopModel": "Parar Modelo",
     "pulling": "Baixando...",
     "runModel": "Executar Modelo",
+    "voiceai": {
+      "title": "Texto para voz da Voice.ai",
+      "description": "Gere fala a partir de texto. As vozes aparecem na lista de modelos abaixo.",
+      "audioFormat": {
+        "label": "Formato de áudio",
+        "placeholder": "Selecionar formato",
+        "helper": "MP3 é recomendado na maioria dos casos."
+      },
+      "language": {
+        "label": "Idioma",
+        "placeholder": "ex.: en",
+        "helper": "Suporte: en, ca, sv, es, fr, de, it, pt, pl, ru, nl."
+      },
+      "model": {
+        "label": "Modelo TTS",
+        "placeholder": "voiceai-tts-v1-latest",
+        "helper": "Consulte a documentação da Voice.ai para modelos compatíveis."
+      },
+      "agentId": {
+        "label": "ID do agente de voz",
+        "placeholder": "Cole o ID do voice agent",
+        "helper": "Necessário para chamadas de voz em tempo real."
+      },
+      "temperature": {
+        "label": "Temperatura",
+        "helper": "Controla a aleatoriedade (0-2)."
+      },
+      "topP": {
+        "label": "Top P",
+        "helper": "Amostragem nucleus (0-1)."
+      }
+    },
     "dialog": {
       "disableModel": {
         "title": "Confirmar Desativação do Modelo",
diff --git a/src/renderer/src/i18n/ru-RU/chat.json b/src/renderer/src/i18n/ru-RU/chat.json
index 60de4b425..c66d4122e 100644
--- a/src/renderer/src/i18n/ru-RU/chat.json
+++ b/src/renderer/src/i18n/ru-RU/chat.json
@@ -148,6 +148,17 @@
     },
     "title": "рабочее пространство"
   },
+  "audio": {
+    "play": "Воспроизвести",
+    "pause": "Пауза"
+  },
+  "call": {
+    "title": "Звонок Voice.ai",
+    "description": "Нажмите, чтобы подключиться к голосовому агенту Voice.ai, и говорите после соединения.",
+    "start": "Начать голосовой звонок",
+    "stop": "Завершить звонок",
+    "end": "Повесить трубку"
+  },
   "skills": {
     "indicator": {
       "active": "{count} навыков активировано",
diff --git a/src/renderer/src/i18n/ru-RU/settings.json b/src/renderer/src/i18n/ru-RU/settings.json
index 513877a63..232731547 100644
--- a/src/renderer/src/i18n/ru-RU/settings.json
+++ b/src/renderer/src/i18n/ru-RU/settings.json
@@ -326,6 +326,38 @@
     "stopModel": "Остановить модель",
     "pulling": "Скачивание...",
     "runModel": "Запустить модель",
+    "voiceai": {
+      "title": "Синтез речи Voice.ai",
+      "description": "Генерируйте речь из текста. Голоса отображаются в списке моделей ниже.",
+      "audioFormat": {
+        "label": "Аудиоформат",
+        "placeholder": "Выберите формат",
+        "helper": "В большинстве случаев рекомендуется MP3."
+      },
+      "language": {
+        "label": "Язык",
+        "placeholder": "например, en",
+        "helper": "Поддерживается: en, ca, sv, es, fr, de, it, pt, pl, ru, nl."
+      },
+      "model": {
+        "label": "TTS-модель",
+        "placeholder": "voiceai-tts-v1-latest",
+        "helper": "См. документацию Voice.ai по поддерживаемым моделям."
+      },
+      "agentId": {
+        "label": "ID голосового агента",
+        "placeholder": "Вставьте ID голосового агента",
+        "helper": "Нужен для голосовых звонков в реальном времени."
+      },
+      "temperature": {
+        "label": "Температура",
+        "helper": "Контролирует случайность (0-2)."
+      },
+      "topP": {
+        "label": "Top P",
+        "helper": "Nucleus-сэмплирование (0-1)."
+      }
+    },
     "dialog": {
       "disableModel": {
         "title": "Подтвердите отключение модели",
diff --git a/src/renderer/src/i18n/zh-HK/chat.json b/src/renderer/src/i18n/zh-HK/chat.json
index ec7ad335c..ac06aa094 100644
--- a/src/renderer/src/i18n/zh-HK/chat.json
+++ b/src/renderer/src/i18n/zh-HK/chat.json
@@ -148,6 +148,17 @@
     },
     "title": "工作區"
   },
+  "audio": {
+    "play": "播放",
+    "pause": "暫停"
+  },
+  "call": {
+    "title": "Voice.ai 通話",
+    "description": "點擊連接 Voice.ai 語音代理，通話接通後即可說話。",
+    "start": "開始語音通話",
+    "stop": "結束通話",
+    "end": "掛斷"
+  },
   "skills": {
     "indicator": {
       "active": "{count} 個技能已激活",
diff --git a/src/renderer/src/i18n/zh-HK/settings.json b/src/renderer/src/i18n/zh-HK/settings.json
index de93be60b..c14e1893a 100644
--- a/src/renderer/src/i18n/zh-HK/settings.json
+++ b/src/renderer/src/i18n/zh-HK/settings.json
@@ -322,6 +322,38 @@
     "stopModel": "停止模型",
     "pulling": "拉取中...",
     "runModel": "運行模型",
+    "voiceai": {
+      "title": "Voice.ai 文字轉語音",
+      "description": "將文字生成語音，voice 會在下方模型列表中顯示。",
+      "audioFormat": {
+        "label": "音訊格式",
+        "placeholder": "選擇格式",
+        "helper": "多數情況建議使用 MP3。"
+      },
+      "language": {
+        "label": "語言",
+        "placeholder": "例如 en",
+        "helper": "支援語言：en, ca, sv, es, fr, de, it, pt, pl, ru, nl。"
+      },
+      "model": {
+        "label": "TTS 模型",
+        "placeholder": "voiceai-tts-v1-latest",
+        "helper": "可選模型請查看 Voice.ai 文件。"
+      },
+      "agentId": {
+        "label": "語音 Agent ID",
+        "placeholder": "貼上 voice agent id",
+        "helper": "即時通話需要此 ID。"
+      },
+      "temperature": {
+        "label": "溫度",
+        "helper": "隨機性參數（0-2）。"
+      },
+      "topP": {
+        "label": "Top P",
+        "helper": "Nucleus 取樣（0-1）。"
+      }
+    },
     "dialog": {
       "disableModel": {
         "title": "確認禁用模型",
diff --git a/src/renderer/src/i18n/zh-TW/chat.json b/src/renderer/src/i18n/zh-TW/chat.json
index 8eebf9943..20324ffe4 100644
--- a/src/renderer/src/i18n/zh-TW/chat.json
+++ b/src/renderer/src/i18n/zh-TW/chat.json
@@ -148,6 +148,17 @@
     },
     "title": "工作區"
   },
+  "audio": {
+    "play": "播放",
+    "pause": "暫停"
+  },
+  "call": {
+    "title": "Voice.ai 通話",
+    "description": "點擊連接 Voice.ai 語音代理，通話接通後即可說話。",
+    "start": "開始語音通話",
+    "stop": "結束通話",
+    "end": "掛斷"
+  },
   "skills": {
     "indicator": {
       "active": "{count} 個技能已激活",
diff --git a/src/renderer/src/i18n/zh-TW/settings.json b/src/renderer/src/i18n/zh-TW/settings.json
index 3e853fa8d..e4c815ca1 100644
--- a/src/renderer/src/i18n/zh-TW/settings.json
+++ b/src/renderer/src/i18n/zh-TW/settings.json
@@ -327,6 +327,38 @@
     "stopModel": "停止模型",
     "pulling": "下載中...",
     "runModel": "執行模型",
+    "voiceai": {
+      "title": "Voice.ai 文字轉語音",
+      "description": "將文字生成語音，voice 會在下方模型清單中顯示。",
+      "audioFormat": {
+        "label": "音訊格式",
+        "placeholder": "選擇格式",
+        "helper": "多數情況建議使用 MP3。"
+      },
+      "language": {
+        "label": "語言",
+        "placeholder": "例如 en",
+        "helper": "支援語言：en, ca, sv, es, fr, de, it, pt, pl, ru, nl。"
+      },
+      "model": {
+        "label": "TTS 模型",
+        "placeholder": "voiceai-tts-v1-latest",
+        "helper": "可選模型請查看 Voice.ai 文件。"
+      },
+      "agentId": {
+        "label": "語音 Agent ID",
+        "placeholder": "貼上 voice agent id",
+        "helper": "即時通話需要此 ID。"
+      },
+      "temperature": {
+        "label": "溫度",
+        "helper": "隨機性參數（0-2）。"
+      },
+      "topP": {
+        "label": "Top P",
+        "helper": "Nucleus 取樣（0-1）。"
+      }
+    },
     "dialog": {
       "disableModel": {
         "title": "確認停用模型",