零度API 文档

视觉语言模型介绍

视觉语言模型介绍

零度API 支持多种视觉语言模型(VLM),可以理解和分析图片内容。

支持的视觉模型

模型 能力
gpt-4o 图片理解、OCR、图文分析
gpt-4o-mini 轻量图片理解
claude-sonnet-4-5 高质量图文理解
gemini-2.5-pro 图片、视频分析
qwen-vl-max 中文图文理解

使用方式

通过 content 字段传入图片 URL 或 Base64 数据:

{
  "model": "gpt-4o",
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "这张图片里有什么?"
        },
        {
          "type": "image_url",
          "image_url": {
            "url": "https://example.com/image.jpg"
          }
        }
      ]
    }
  ]
}

支持的图片格式

  • JPEG / JPG
  • PNG
  • GIF(取第一帧)
  • WEBP

图片大小限制

传入方式 限制
URL 图片文件 ≤ 20MB
Base64 编码后字符串 ≤ 20MB

详见 Chat(分析图片) 接口文档。

零度API 文档