视觉语言模型介绍
视觉语言模型介绍
零度API 支持多种视觉语言模型(VLM),可以理解和分析图片内容。
支持的视觉模型
| 模型 | 能力 |
|---|---|
gpt-4o |
图片理解、OCR、图文分析 |
gpt-4o-mini |
轻量图片理解 |
claude-sonnet-4-5 |
高质量图文理解 |
gemini-2.5-pro |
图片、视频分析 |
qwen-vl-max |
中文图文理解 |
使用方式
通过 content 字段传入图片 URL 或 Base64 数据:
{
"model": "gpt-4o",
"messages": [
{
"role": "user",
"content": [
{
"type": "text",
"text": "这张图片里有什么?"
},
{
"type": "image_url",
"image_url": {
"url": "https://example.com/image.jpg"
}
}
]
}
]
}
支持的图片格式
- JPEG / JPG
- PNG
- GIF(取第一帧)
- WEBP
图片大小限制
| 传入方式 | 限制 |
|---|---|
| URL | 图片文件 ≤ 20MB |
| Base64 | 编码后字符串 ≤ 20MB |
详见 Chat(分析图片) 接口文档。