Skip to content
EN

文生视频

方法: POST路径: /qwen/api/v1/services/aigc/video-generation/video-synthesis

官方api 文档

通义万相文生视频模型基于文本提示词,生成一段流畅的视频。支持的能力包括:

基础能力:支持选择视频时长(5秒/10秒)、指定视频分辨率(480P/720P/1080P)、智能改写prompt、添加水印。

音频能力:支持自动配音,或传入自定义音频文件,实现音画同步。(仅wan2.5支持)

请求参数

Header 参数

text
X-DashScope-Async
string
必需
示例:
enable
Content-Type
string
必需
示例:
application/json
Authorization
string
可选
默认值:
Bearer {{YOUR_API_KEY}}

Body 参数 application/json 必填

text
model
string
必需
input
object
必需
prompt
string
必需
文本提示词。用来描述生成视频中期望包含的元素和视觉特点。
支持中英文,每个汉字/字母占一个字符,超过部分会自动截断。长度限制因模型版本而异:
wan2.5-t2v-preview:长度不超过2000个字符。
wan2.2及以下版本模型:长度不超过800个字符。
示例值:一只小猫在月光下奔跑。
negative_prompt
string
可选
反向提示词,用来描述不希望在视频画面中看到的内容,可以对视频画面进行限制。
支持中英文,长度不超过500个字符,超过部分会自动截断。
示例值:低分辨率、错误、最差质量、低质量、残缺、多余的手指、比例不良等。
audio_url
string
可选
仅 wan2.5-t2v-preview 支持。音频文件URL,模型将使用该音频生成视频。使用方法参见音频设置。
支持 HTTP 或 HTTPS 协议。本地文件可通过上传文件获取临时URL。
音频限制:
格式:wav、mp3。
时长:3~30s。
文件大小:不超过15MB。
超限处理:若音频长度超过 duration 值(5秒或10秒),自动截取前5秒或10秒,其余部分丢弃。若音频长度不足视频时长,超出音频长度部分为无声视频。例如,音频为3秒,视频时长为5秒,输出视频前3秒有声,后2秒无声。
示例值:
https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20250923/hbiayh/%E4%BB%8E%E5%86%9B%E8%A1%8C.mp3。
parameters
object
可选
size
string
可选
指定生成的视频分辨率,格式为宽*高。该参数的默认值和可用枚举值依赖于 model 参数,规则如下:
wan2.5-t2v-preview:默认值为 1920*1080(1080P)。可选分辨率:480P、720P、1080P对应的所有分辨率。
wan2.2-t2v-plus:默认值为 1920*1080(1080P)。可选分辨率:480P、1080P对应的所有分辨率。
wanx2.1-t2v-turbo :默认值为 1280*720(720P)。可选分辨率:480P、720P 对应的所有分辨率。
wanx2.1-t2v-plus:默认值为1280*720(720P)。可选分辨率:720P 对应的所有分辨率。
480P档位:可选的视频分辨率及其对应的视频宽高比为:
832*480:16:9。
480*832:9:16。
624*624:1:1。
720P档位:可选的视频分辨率及其对应的视频宽高比为:
1280*720:16:9。
720*1280:9:16。
960*960:1:1。
1088*832:4:3。
832*1088:3:4。
1080P档位:可选的视频分辨率及其对应的视频宽高比为:
1920*1080: 16:9。
1080*1920: 9:16。
1440*1440: 1:1。
1632*1248: 4:3。
1248*1632: 3:4。
prompt_extend
boolean
可选
是否开启prompt智能改写。开启后使用大模型对输入prompt进行智能改写。对于较短的prompt生成效果提升明显,但会增加耗时。
true:默认值,开启智能改写。
false:不开启智能改写。
示例值:true。
duration
integer
可选
生成视频的时长,单位为秒。该参数的取值依赖于 model参数:
wan2.5-t2v-preview:可选值为5、10。默认值为5。
wan2.2-t2v-plus:固定为5秒,且不支持修改。
wanx2.1-t2v-plus:固定为5秒,且不支持修改。
wanx2.1-t2v-turbo:固定为5秒,且不支持修改。
示例值:5。
audio
boolean
可选
仅 wan2.5-t2v-preview 支持。是否添加音频。参数优先级:audio_url > audio,仅在 audio_url为空时生效。
true:默认值,自动为视频添加音频。
false:不添加音频,输出无声视频。
示例值:true。
watermark
boolean
可选
是否添加水印标识,水印位于视频右下角,文案固定为“AI生成”。
false:默认值,不添加水印。
true:添加水印。
seed
integer
可选
随机数种子,取值范围为[0, 2147483647]。
未指定时,系统自动生成随机种子。若需提升生成结果的可复现性,建议固定seed值。
请注意,由于模型生成具有概率性,即使使用相同 seed,也不能保证每次生成结果完全一致。
示例值:12345。
示例
{
"model"
:
"wan2.5-t2v-preview"
,
"input"
:
{
"prompt"
:
"一幅史诗级可爱的场景。一只小巧可爱的卡通小猫将军,身穿细节精致的金色盔甲,头戴一个稍大的头盔,勇敢地站在悬崖上。他骑着一匹虽小但英勇的战马,说:”青海长云暗雪山,孤城遥望玉门关。黄沙百战穿金甲,不破楼兰终不还。“。悬崖下方,一支由老鼠组成的、数量庞大、无穷无尽的军队正带着临时制作的武器向前冲锋。这是一个戏剧性的、大规模的战斗场景,灵感来自中国古代的战争史诗。远处的雪山上空,天空乌云密布。整体氛围是“可爱”与“霸气”的搞笑和史诗般的融合。"
}
,
"parameters"
:
{
"size"
:
"832*480"
,
"prompt_extend"
:
true
,
"duration"
:
10
,
"audio"
:
true
}
}

请求示例代码

Shell

bash
curl --location --request POST '/qwen/api/v1/services/aigc/video-generation/video-synthesis' \
--header 'X-DashScope-Async: enable' \
--header 'Authorization: Bearer {{YOUR_API_KEY}}' \
--header 'Content-Type: application/json' \
--data-raw '{
    "model": "wan2.5-t2v-preview",
    "input": {
        "prompt": "一幅史诗级可爱的场景。一只小巧可爱的卡通小猫将军,身穿细节精致的金色盔甲,头戴一个稍大的头盔,勇敢地站在悬崖上。他骑着一匹虽小但英勇的战马,说:”青海长云暗雪山,孤城遥望玉门关。黄沙百战穿金甲,不破楼兰终不还。“。悬崖下方,一支由老鼠组成的、数量庞大、无穷无尽的军队正带着临时制作的武器向前冲锋。这是一个戏剧性的、大规模的战斗场景,灵感来自中国古代的战争史诗。远处的雪山上空,天空乌云密布。整体氛围是“可爱”与“霸气”的搞笑和史诗般的融合。"
    },
    "parameters": {
        "size": "832*480",
        "prompt_extend": true,
        "duration": 10,
        "audio": true
    }
}'

返回响应

🟢 200 成功

内容类型: application/json

响应结构

text
object

示例

json
{}