数字人wan2.2-s2v视频生成
方法: POST路径: /qwen/api/v1/services/aigc/image2video/video-synthesis/
数字人wan2.2-s2v模型能基于单张图片和音频,生成动作自然的说话、唱歌或表演视频。
音频驱动: 通过输入的人声音频,驱动静态图片中的人物实现口型、表情和动作与音频同步。
场景丰富: 支持 "说话"、"唱歌" 、“表演”三种对口型场景
人物形象多样化:支持真人(肖像、半身、全身)及卡通人物。
输出视频分辨率:提供480P、720P两档分辨率选项。
请求参数
Header 参数
text
X-DashScope-Async
string
必需
示例:
enable
Content-Type
string
必需
示例:
application/json
Authorization
string
可选
默认值:
Bearer {{YOUR_API_KEY}}Body 参数 application/json 必填
text
model
string
必需
input
object
必需
image_url
string
必需
上传的图片 URL。
图像格式:支持jpg,jpeg,png,bmp,webp。
图像分辨率:图像的宽度和高度范围为[400, 7000]像素。
上传图片仅支持公网可访问的 HTTP/HTTPS 链接。本地文件可通过上传文件获取临时URL。
audio_url
string
必需
上传的音频文件 URL。
音频格式:格式为wav、mp3。
音频限制:文件<15M,时长<20s。
音频内容:音频中需包含清晰、响亮的人声语音,并去除了环境噪音、背景音乐等声音干扰信息。
上传音频仅支持公网可访问的 HTTP/HTTPS 链接。本地文件可通过上传文件获取临时URL。
parameters
object
必需
resolution
string
可选
视频分辨率档位。
可选值为480P、720P。默认值为480P。
模型会尽量保持输出视频与输入图像的宽高比一致,在宽高比不变的基础上,将视频总像素调整到所选档位附近。
示例
{
"model"
:
"wan2.2-s2v"
,
"input"
:
{
"image_url"
:
"https://img.alicdn.com/imgextra/i3/O1CN011FObkp1T7Ttowoq4F_!!6000000002335-0-tps-1440-1797.jpg"
,
"audio_url"
:
"https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20250825/iaqpio/input_audio.MP3"
}
,
"parameters"
:
{
"resolution"
:
"480P"
}
}请求示例代码
Shell
bash
curl --location --request POST '/qwen/api/v1/services/aigc/image2video/video-synthesis/' \
--header 'X-DashScope-Async: enable' \
--header 'Authorization: Bearer {{YOUR_API_KEY}}' \
--header 'Content-Type: application/json' \
--data-raw '{
"model": "wan2.2-s2v",
"input": {
"image_url": "https://img.alicdn.com/imgextra/i3/O1CN011FObkp1T7Ttowoq4F_!!6000000002335-0-tps-1440-1797.jpg",
"audio_url": "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20250825/iaqpio/input_audio.MP3"
},
"parameters": {
"resolution": "480P"
}
}'返回响应
🟢 200 成功
内容类型: application/json
响应结构
text
object示例
json
{}