
Audio-Translation(音频翻译)
根据原语音音色生成翻译成另一语言的语音
2025-11-20
价格:
大额采购联系客户经理享专属优惠
API介绍
功能介绍
输入一段语音,根据原语音的音色,生成一段翻译成另一种语言的语音
处理流程说明
🔄 整体处理流程
输入音频 → 语音识别(STT) → 文本翻译 → 音色克隆 → 语音合成(TTS) → 输出音频
系统将自动完成从音频到音频的端到端翻译,保持原始或指定的音色特征。
处理步骤详情
📋 五个核心步骤
1️⃣ 初始化 (initialization)
下载并准备音频文件
克隆音频自动裁剪至30秒内
2️⃣ 语音识别 (speech_to_text)
使用 OpenAI gpt-4o-transcribe 将音频转为文本
3️⃣ 翻译 (translation)
用户自选llm模型(默认使用claude-haiku-4-5-20251001模型) 智能翻译
4️⃣ 音色克隆 (voice_clone)
分析并提取音频特征
5️⃣ 语音合成 (text_to_speech)
使用克隆音色生成目标语言音频
输出高质量音频文件
供应商选择逻辑
🎯 自动选择规则
系统会根据目标语言自动选择最佳的音色克隆供应商:
选择优先级
1.用户指定:如果指定了供应商且支持目标语言,优先使用
2.语言匹配:中英文优先使用 index_tts2,其他语言使用 Fish
⚠️ 注意事项
克隆音频建议时长 10-30 秒,过长会自动裁剪
音频需清晰无噪音以获得最佳效果
支持格式:mp3, wav
API调试台
登录后,探索更多精彩功能! 点击登录
API列表 (2)
API价格表
$¥ 円 ₽