同步语音合成
方法: POST路径: /minimax/v1/t2a_v2
通过提交 post请求/minimaxi/v1/voice_design 并同步得到结果
请求参数
Header 参数
text
Content-Type
string
必需
示例:
<content-type>
Authorization
string
可选
默认值:
Bearer {{YOUR_API_KEY}}Body 参数 application/json 必填
text
model
string
必需
请求的模型版本,可选范围:speech-2.6-hd, speech-2.6-turbo, speech-02-hd, speech-02-turbo, speech-01-hd, speech-01-turbo.
text
string
需要合成语音的文本
必需
stream
boolean
可选
控制是否流式输出。默认 false,即不开启流式
voice_setting
object
必需
voice_id
string
必需
speed
number
可选
合成音频的语速,取值越大,语速越快。取值范围 [0.5,2],默认值为1.0
vol
number
可选
合成音频的音量,取值越大,音量越高。取值范围 (0,10],默认值为 1.0
pitch
integer
可选
合成音频的语调,取值范围 [-12,12],默认值为 0,其中 0 为原音色输出
emotion
string
可选
控制合成语音的情绪,参数范围 ["happy", "sad", "angry", "fearful", "disgusted", "surprised", "calm", "fluent"],分别对应 8 种情绪:高兴,悲伤,愤怒,害怕,厌恶,惊讶,中性,生动
模型会根据输入文本自动匹配合适的情绪,一般无需手动指定
该参数仅对 speech-2.6-hd, speech-2.6-turbo, speech-02-hd, speech-02-turbo, speech-01-hd, speech-01-turbo 模型生效
选项 fluent 仅对 speech-2.6-turbo, speech-2.6-hd 模型生效
可用选项: happy, sad, angry, fearful, disgusted, surprised, calm, fluent
text_normalization
boolean
可选
是否启用中文、英语文本规范化,开启后可提升数字阅读场景的性能,但会略微增加延迟,默认值为 false
latex_read
boolean
可选
控制是否朗读 latex 公式,默认为 false
pronunciation_dict
object
可选
tone
array
[string]
可选
audio_setting
object
可选
sample_rate
integer
可选
生成音频的采样率。可选范围[8000,16000,22050,24000,32000,44100],默认为 32000
bitrate
integer
可选
生成音频的比特率。可选范围[32000,64000,128000,256000],默认值为 128000。该参数仅对 mp3 格式的音频生效
format
string
可选
生成音频的格式,wav 仅在非流式输出下支持
可用选项: mp3, pcm, flac, wav
channel
integer
可选
生成音频的声道数。可选范围:[1,2],其中 1 为单声道,2 为双声道,默认值为 1
force_cbr
boolean
可选
对于音频恒定比特率(cbr)控制,可选 false、 true。当此参数设置为 true,将以恒定比特率方式进行音频编码。
注意:本参数仅当音频设置为流式输出,且音频格式为 mp3 时生效。
subtitle_enable
boolean
可选
stream_options
object
可选
exclude_aggregated_audio
string
必需
设置最后一个 chunk 是否包含拼接后的语音 hex 数据。默认值为 False,即最后一个 chunk 中包含拼接后的完整语音 hex 数据
timber_weights
object
可选
voice_id
string
必需
weight
integer
必需
合成音频各音色所占的权重,须与 voice_id 同步填写。可选值范围为[1, 100],最多支持 4 种音色混合,单一音色取值占比越高,合成音色与该音色相似度越高.
language_boost
string
可选
是否增强对指定的小语种和方言的识别能力。默认值为 null,可设置为 auto 让模型自主判断。
可用选项: Chinese, Chinese,Yue, English, Arabic, Russian, Spanish, French, Portuguese, German, Turkish, Dutch, Ukrainian, Vietnamese, Indonesian, Japanese, Italian, Korean, Thai, Polish, Romanian, Greek, Czech, Finnish, Hindi, Bulgarian, Danish, Hebrew, Malay, Persian, Slovak, Swedish, Croatian, Filipino, Hungarian, Norwegian, Slovenian, Catalan, Nynorsk, Tamil, Afrikaans, auto
voice_modify
object
可选
声音效果器设置,该参数支持的音频格式:
非流式:mp3, wav, flac
流式:mp3
pitch
integer
可选
音高调整(低沉/明亮),范围 [-100,100],数值接近 -100,声音更低沉;接近 100,声音更明亮
intensity
integer
可选
强度调整(力量感/柔和),范围 [-100,100],数值接近 -100,声音更刚劲;接近 100,声音更轻柔
timbre
integer
可选
音色调整(磁性/清脆),范围 [-100,100],数值接近 -100,声音更浑厚;数值接近 100,声音更清脆
sound_effects
string
可选
音效设置,单次仅能选择一种,可选值:
spacious_echo(空旷回音)
auditorium_echo(礼堂广播)
lofi_telephone(电话失真)
robotic(电音)
可用选项: spacious_echo, auditorium_echo, lofi_telephone, robotic
subtitle_enable
boolean
可选
控制是否开启字幕服务,默认值为 false。此参数仅在非流式输出场景下有效,且仅对 speech-2.6-hd speech-2.6-turbo speech-02-turbo speech-02-hd speech-01-turbo speech-01-hd 模型有效
output_format
string
可选
控制输出结果形式的参数,可选值范围为[url, hex],默认值为 hex 。该参数仅在非流式场景生效,流式场景仅支持返回 hex 形式。返回的 url 有效期为 24 小时
可用选项: url, hex
aigc_watermark
boolean
可选
控制在合成音频的末尾添加音频节奏标识,默认值为 False。该参数仅对非流式合成生效
示例
{
"model"
:
"speech-2.6-hd"
,
"text"
:
"今天是不是很开心呀,当然了!"
,
"stream"
:
false
,
"voice_setting"
:
{
"voice_id"
:
"male-qn-qingse"
,
"speed"
:
1
,
"vol"
:
1
,
"pitch"
:
0
,
"emotion"
:
"happy"
}
,
"pronunciation_dict"
:
{
"tone"
:
[
"处理/(chu3)(li3)"
,
"危险/dangerous"
]
}
,
"audio_setting"
:
{
"sample_rate"
:
32000
,
"bitrate"
:
128000
,
"format"
:
"mp3"
,
"channel"
:
1
}
,
"subtitle_enable"
:
false
}请求示例代码
Shell
bash
curl --location --request POST '/minimax/v1/t2a_v2' \
--header 'Authorization: Bearer {{YOUR_API_KEY}}' \
--header 'Content-Type: <content-type>' \
--data-raw '{
"model": "speech-2.6-hd",
"text": "今天是不是很开心呀,当然了!",
"stream": false,
"voice_setting": {
"voice_id": "male-qn-qingse",
"speed": 1,
"vol": 1,
"pitch": 0,
"emotion": "happy"
},
"pronunciation_dict": {
"tone": [
"处理/(chu3)(li3)",
"危险/dangerous"
]
},
"audio_setting": {
"sample_rate": 32000,
"bitrate": 128000,
"format": "mp3",
"channel": 1
},
"subtitle_enable": false
}'返回响应
🟢 200 成功
内容类型: application/json
响应结构
text
data
object
可选
返回的合成数据对象,可能为 null,需进行非空判断
audio
string
可选
合成后的音频数据,采用 hex 编码,格式与请求中指定的输出格式一致
status
integer
可选
当前音频流状态:1 表示合成中,2 表示合成结束
subtitle_file
string
可选
合成的字幕下载链接。音频文件对应的字幕,精确到句(不超过 50 字),单位为毫秒,格式为 json
extra_info
object
可选
audio_length
integer
音频时长(毫秒)
可选
audio_sample_rate
integer
音频采样率
可选
audio_size
integer
可选
音频文件大小(字节)
bitrate
integer
音频比特率
可选
word_count
integer
可选
已发音的字数统计,包含汉字、数字、字母,不包含标点符号
invisible_character_ratio
integer
可选
非法字符占比.非法字符不超过 10%(包含 10%),音频会正常生成,并返回非法字符占比数据;如超过 10% 将进行报错
usage_characters
integer
计费字符数
可选
audio_format
string
可选
生成音频文件的格式。取值范围 [mp3, pcm, flac]
audio_channel
integer
可选
生成音频声道数,1:单声道,2:双声道
trace_id
string
可选
base_resp
object
可选
status_code
integer
必需
状态码。
0: 请求结果正常
1000: 未知错误
1001: 超时
1002: 触发限流
1004: 鉴权失败
1039: 触发 TPM 限流
1042: 非法字符超过 10%
2013: 输入参数信息不正常
status_msg
string
状态详情
必需示例
json
{
"data": {
"audio": "<hex编码的audio>",
"status": 2
},
"extra_info": {
"audio_length": 9900,
"audio_sample_rate": 32000,
"audio_size": 160323,
"bitrate": 128000,
"word_count": 52,
"invisible_character_ratio": 0,
"usage_characters": 26,
"audio_format": "mp3",
"audio_channel": 1
},
"trace_id": "01b8bf9bb7433cc75c18eee6cfa8fe21",
"base_resp": {
"status_code": 0,
"status_msg": "success"
}
}