Wan文生视频带音频
方法: POST路径: /v2/videos/generations
通义万相文生视频模型基于文本提示词,生成一段流畅的视频。支持的能力包括:
基础能力:时长灵活(5秒/10秒)、指定视频分辨率(480P/720P/1080P)、智能改写prompt、添加水印。
音频能力:支持自动配音,或传入自定义音频文件,实现音画同步。(仅wan2.5支持)
请求参数
Header 参数
text
Authorization
string
可选
默认值:
Bearer {{YOUR_API_KEY}}Body 参数 application/json
text
prompt
string
必需
The text prompt supports Chinese and English, with a maximum length of 800 characters. Each Chinese character or letter counts as one character. Content that exceeds this limit will be truncated.
文本提示支持中英文,最大长度为800个字符。每个汉字或字母算作一个字符。超过此限制的内容将被截断。
Example: A kitten running in the moonlight.
示例:一只小猫在月光下奔跑。
model
enum<string>
必需
型号名称。示例:wan2.1-t2v-turbo。
值:
wan2.5-t2v-preview
万相2.5 preview(有声视频)
新增音频能力:支持自动配音,或传入自定义音频文件
duration
enum<integer>
可选
生成视频的持续时间(以秒为单位)。该参数固定为 5,无法修改。模型始终生成一个 5 秒的视频。
枚举值:
5
10
audio_url
string
可选
仅 wan2.5-t2v-preview 支持。音频文件URL,模型将使用该音频生成视频。使用方法参见音频设置。
支持 HTTP 或 HTTPS 协议。本地文件可通过上传文件获取临时URL。
音频限制:
格式:wav、mp3。
时长:3~30s。
文件大小:不超过15MB。
超限处理:若音频长度超过 duration 值(5秒或10秒),自动截取前5秒或10秒,其余部分丢弃。若音频长度不足视频时长,超出音频长度部分为无声视频。例如,音频为3秒,视频时长为5秒,输出视频前3秒有声,后2秒无声。
示例值:
https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20250923/hbiayh/%E4%BB%8E%E5%86%9B%E8%A1%8C.mp3。
audio
string
可选
仅 wan2.5-t2v-preview 支持。是否添加音频。参数优先级:audio_url > audio,仅在 audio_url为空时生效。
true:默认值,自动为视频添加音频。
false:不添加音效,输出无声视频。
size
string
可选
480P档位:可选的视频分辨率及其对应的视频宽高比为:
832*480:16:9。
480*832:9:16。
624*624:1:1。
720P档位:可选的视频分辨率及其对应的视频宽高比为:
1280*720:16:9。
720*1280:9:16。
960*960:1:1。
1088*832:4:3。
832*1088:3:4。
1080P档位:可选的视频分辨率及其对应的视频宽高比为:
1920*1080: 16:9。
1080*1920: 9:16。
1440*1440: 1:1。
1632*1248: 4:3。
1248*1632: 3:4。
watermark
boolean
可选
指定是否添加水印。水印位于视频的右下角,注明“由人工智能生成”。
template
string
可选
negative_prompt
string
可选
A negative prompt is used to describe content that you do not want to appear in the video, which lets you restrict the video content.
否定提示用于描述您不想出现在视频中的内容,这可以让您限制视频内容。
It supports Chinese and English, with a maximum length of 500 characters. Content that exceeds this limit will be truncated.
它支持中英文,最大长度为 500 个字符。超过此限制的内容将被截断。
Examples: low resolution, error, worst quality, low quality, defects, extra fingers, poor proportions.
例如:低分辨率、错误、质量最差、质量低、缺陷、多余手指、比例差。
prompt_extend
boolean
可选
指定是否启用提示重写。如果启用,则使用大型语言模型 (LLM) 智能重写输入提示。这显着改善了较短提示的生成结果,但增加了处理时间。
seed
integer
可选
一个随机数种子,用于控制模型生成的内容的随机性。该值必须在 [0, 2147483647] 的范围内。
如果不提供此参数,则算法会自动为种子生成一个随机数。如果希望生成的内容保持相对稳定,可以使用相同的种子值。
示例
{
"model"
:
"wan2.5-t2v-preview"
,
"prompt"
:
"一幅史诗级可爱的场景。一只小巧可爱的卡通小猫将军,身穿细节精致的金色盔甲,头戴一个稍大的头盔,勇敢地站在悬崖上。他骑着一匹虽小但英勇的战马,说:”青海长云暗雪山,孤城遥望玉门关。黄沙百战穿金甲,不破楼兰终不还。“。悬崖下方,一支由老鼠组成的、数量庞大、无穷无尽的军队正带着临时制作的武器向前冲锋。这是一个戏剧性的、大规模的战斗场景,灵感来自中国古代的战争史诗。远处的雪山上空,天空乌云密布。整体氛围是“可爱”与“霸气”的搞笑和史诗般的融合。"
,
"audio_url"
:
"https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20250923/hbiayh/%E4%BB%8E%E5%86%9B%E8%A1%8C.mp3"
,
"size"
:
"832*480"
,
"prompt_extend"
:
true
,
"duration"
:
10
}请求示例代码
Shell
bash
curl --location --request POST '/v2/videos/generations' \
--header 'Authorization: Bearer {{YOUR_API_KEY}}' \
--header 'Content-Type: application/json' \
--data-raw '{
"model": "wan2.5-t2v-preview",
"prompt": "一幅史诗级可爱的场景。一只小巧可爱的卡通小猫将军,身穿细节精致的金色盔甲,头戴一个稍大的头盔,勇敢地站在悬崖上。他骑着一匹虽小但英勇的战马,说:”青海长云暗雪山,孤城遥望玉门关。黄沙百战穿金甲,不破楼兰终不还。“。悬崖下方,一支由老鼠组成的、数量庞大、无穷无尽的军队正带着临时制作的武器向前冲锋。这是一个戏剧性的、大规模的战斗场景,灵感来自中国古代的战争史诗。远处的雪山上空,天空乌云密布。整体氛围是“可爱”与“霸气”的搞笑和史诗般的融合。",
"audio_url": "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20250923/hbiayh/%E4%BB%8E%E5%86%9B%E8%A1%8C.mp3",
"size": "832*480",
"prompt_extend": true,
"duration": 10
}'返回响应
🟢 200 成功
内容类型: application/json
响应结构
text
task_id
string
必需示例
json
{
"task_id": "e7bed961-d1b9-4b3f-8ef9-5f441bde28c8"
}