视觉语言模型介绍

零度API 支持多种视觉语言模型（VLM），可以理解和分析图片内容。

支持的视觉模型

模型	能力
`gpt-4o`	图片理解、OCR、图文分析
`gpt-4o-mini`	轻量图片理解
`claude-sonnet-4-5`	高质量图文理解
`gemini-2.5-pro`	图片、视频分析
`qwen-vl-max`	中文图文理解

使用方式

通过 content 字段传入图片 URL 或 Base64 数据：

{
  "model": "gpt-4o",
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "这张图片里有什么？"
        },
        {
          "type": "image_url",
          "image_url": {
            "url": "https://example.com/image.jpg"
          }
        }
      ]
    }
  ]
}

支持的图片格式

JPEG / JPG
PNG
GIF（取第一帧）
WEBP

图片大小限制

传入方式	限制
URL	图片文件 ≤ 20MB
Base64	编码后字符串 ≤ 20MB

详见 Chat(分析图片) 接口文档。