Audio-Translation(音频翻译)

Audio-Translation(音频翻译)

根据原语音音色生成翻译成另一语言的语音
2025-11-20
音视频处理
价格:
以具体使用的模型为准
大额采购联系客户经理享专属优惠

API介绍

功能介绍

输入一段语音,根据原语音的音色,生成一段翻译成另一种语言的语音

处理流程说明

🔄 整体处理流程

输入音频 → 语音识别(STT) → 文本翻译 → 音色克隆 → 语音合成(TTS) → 输出音频

系统将自动完成从音频到音频的端到端翻译,保持原始或指定的音色特征。

处理步骤详情

📋 五个核心步骤

1️⃣ 初始化 (initialization)

下载并准备音频文件

克隆音频自动裁剪至30秒内

2️⃣ 语音识别 (speech_to_text)

使用 OpenAI gpt-4o-transcribe 将音频转为文本

3️⃣ 翻译 (translation)

用户自选llm模型(默认使用claude-haiku-4-5-20251001模型) 智能翻译

4️⃣ 音色克隆 (voice_clone)

分析并提取音频特征

5️⃣ 语音合成 (text_to_speech)

使用克隆音色生成目标语言音频

输出高质量音频文件

供应商选择逻辑

🎯 自动选择规则

系统会根据目标语言自动选择最佳的音色克隆供应商:


选择优先级

1.用户指定:如果指定了供应商且支持目标语言,优先使用

2.语言匹配:中英文优先使用 index_tts2,其他语言使用 Fish

⚠️ 注意事项

克隆音频建议时长 10-30 秒,过长会自动裁剪

音频需清晰无噪音以获得最佳效果

支持格式:mp3, wav

API调试台

登录后,探索更多精彩功能! 点击登录

API列表 (2)

API描述接口地址请求方法稳定性参数说明
Audio-Translation(创建音频翻译任务)
POST
稳定
查看详情
Audio-Translation(查询音频翻译任务)
GET
稳定
查看详情

API价格表

$
模型说明302.AI价格

Audio-Translation

创建音频翻译任务

以具体使用的模型为准

Audio-Translation

查询音频翻译任务

免费