核心能力

Gemma 4 的卓越之处

六大突破性能力,让 Gemma 4 站在开源 AI 的前沿。

🧠

高级推理

多步规划和深度逻辑。在数学(AIME 2026: 89.2%)和指令跟随基准测试上取得重大突破,能够进行复杂问题分解。

🤖

智能体工作流

原生支持函数调用、结构化 JSON 输出和系统指令。构建可与工具和 API 交互、可靠执行复杂工作流的自主智能体。

💻

代码生成

高质量离线代码生成。将你的工作站变为本地优先的 AI 代码助手。在 LiveCodeBench v6 竞技编程挑战中得分 80%。

👁️

多模态 —— 视觉、视频与音频

所有模型原生支持以可变分辨率处理图像和视频,擅长 OCR 和图表理解。E2B/E4B 还支持原生音频输入,用于语音识别。

🌍

支持 140+ 种语言

在超过 140 种语言上进行原生训练。为全球受众构建包容性、高性能应用,多语言理解能力卓越(MMMLU: 85.2%)。

📄

超长上下文

无缝处理长格式内容。边缘模型支持 128K 上下文窗口;大型模型可扩展至 256K tokens —— 可在单次提示中传入整个代码仓库。

智能体工作流

智能体工作流

原生支持函数调用、结构化 JSON 输出和系统指令。构建可与工具和 API 交互、可靠执行复杂工作流的自主智能体。

  • Native function calling with type-safe JSON Schema
  • Structured output for reliable pipeline integration
  • System instructions for role definition
  • tau2-bench Agentic score: 86.4% (31B)
agent_example.py
tools = [
  {
    "name": "web_search",
    "description": "Search the internet for information",
    "parameters": {
      "type": "object",
      "properties": {
        "query": {"type": "string"}
      }
    }
  }
]

# Gemma 4 native function calling
response = model.generate(
  messages=messages,
  tools=tools,
  tool_choice="auto"
)
🖼️
Variable res
Image
🎬
Native support
Video
🎙️
Speech recognition
Audio (E2B/E4B)
📊
MMMU Pro: 76.9%
Charts & OCR
多模态 —— 视觉、视频与音频

多模态 —— 视觉、视频与音频

所有模型原生支持以可变分辨率处理图像和视频,擅长 OCR 和图表理解。E2B/E4B 还支持原生音频输入,用于语音识别。

模型对比 →
支持 140+ 种语言

支持 140+ 种语言

在超过 140 种语言上进行原生训练。为全球受众构建包容性、高性能应用,多语言理解能力卓越(MMMLU: 85.2%)。

العربية
Arabic
中文
Chinese
English
English
Français
French
Deutsch
German
हिन्दी
Hindi
Español
Spanish
140+
+133 more

Gemma 4 模型家族

在行业标准数据集上进行评估,完整基准数据请查看模型卡片。