核心能力

Gemma 4 的卓越之处

六大突破性能力，让 Gemma 4 站在开源 AI 的前沿。

🧠

高级推理

多步规划和深度逻辑。在数学（AIME 2026: 89.2%）和指令跟随基准测试上取得重大突破，能够进行复杂问题分解。

🤖

智能体工作流

原生支持函数调用、结构化 JSON 输出和系统指令。构建可与工具和 API 交互、可靠执行复杂工作流的自主智能体。

💻

代码生成

高质量离线代码生成。将你的工作站变为本地优先的 AI 代码助手。在 LiveCodeBench v6 竞技编程挑战中得分 80%。

👁️

多模态 —— 视觉、视频与音频

所有模型原生支持以可变分辨率处理图像和视频，擅长 OCR 和图表理解。E2B/E4B 还支持原生音频输入，用于语音识别。

🌍

支持 140+ 种语言

在超过 140 种语言上进行原生训练。为全球受众构建包容性、高性能应用，多语言理解能力卓越（MMMLU: 85.2%）。

📄

超长上下文

无缝处理长格式内容。边缘模型支持 128K 上下文窗口；大型模型可扩展至 256K tokens —— 可在单次提示中传入整个代码仓库。

智能体工作流

原生支持函数调用、结构化 JSON 输出和系统指令。构建可与工具和 API 交互、可靠执行复杂工作流的自主智能体。

› Native function calling with type-safe JSON Schema
› Structured output for reliable pipeline integration
› System instructions for role definition
› tau2-bench Agentic score: 86.4% (31B)

agent_example.py

tools = [
  {
    "name": "web_search",
    "description": "Search the internet for information",
    "parameters": {
      "type": "object",
      "properties": {
        "query": {"type": "string"}
      }
    }
  }
]

# Gemma 4 native function calling
response = model.generate(
  messages=messages,
  tools=tools,
  tool_choice="auto"
)

🖼️

Variable res

Image

🎬

Native support

Video

🎙️

Speech recognition

Audio (E2B/E4B)

📊

MMMU Pro: 76.9%

Charts & OCR

多模态 —— 视觉、视频与音频

所有模型原生支持以可变分辨率处理图像和视频，擅长 OCR 和图表理解。E2B/E4B 还支持原生音频输入，用于语音识别。

模型对比 →

支持 140+ 种语言

在超过 140 种语言上进行原生训练。为全球受众构建包容性、高性能应用，多语言理解能力卓越（MMMLU: 85.2%）。

العربية

Arabic

中文

Chinese

English

Français

French

Deutsch

German

हिन्दी

Hindi

Español

Spanish

140+

+133 more

Gemma 4 模型家族

在行业标准数据集上进行评估，完整基准数据请查看模型卡片。

模型对比 → 快速入门