Capacidades Principales

Qué hace excepcional a Gemma 4

Seis capacidades revolucionarias que sitúan a Gemma 4 en la frontera de la IA de código abierto.

🧠

Razonamiento Avanzado

Planificación multi-paso y lógica profunda. Mejoras significativas en benchmarks de matemáticas (AIME 2026: 89.2%) y seguimiento de instrucciones, permitiendo descomposición de problemas complejos.

🤖

Flujos de Trabajo Agénticos

Llamada a funciones nativa, salida JSON estructurada e instrucciones de sistema. Construye agentes autónomos que interactúan con herramientas y APIs para ejecutar flujos de trabajo de forma confiable.

💻

Generación de Código

Generación de código offline de alta calidad. Convierte tu estación de trabajo en un asistente de código local. Puntuación del 80% en LiveCodeBench v6 de codificación competitiva.

👁️

Multimodal — Visión, Video y Audio

Todos los modelos procesan de forma nativa imágenes y video con resoluciones variables, destacando en OCR y comprensión de gráficos. E2B/E4B también admiten entrada de audio nativa para reconocimiento de voz.

🌍

+140 Idiomas

Entrenado de forma nativa en más de 140 idiomas. Construye aplicaciones inclusivas y de alto rendimiento para una audiencia global con comprensión multilingüe de vanguardia (MMMLU: 85.2%).

📄

Contexto Ultralargo

Procesa contenido extenso sin problemas. Los modelos de borde tienen una ventana de contexto de 128K; los más grandes llegan a 256K tokens, permitiendo pasar repositorios completos en un solo prompt.

Flujos de Trabajo Agénticos

› Native function calling with type-safe JSON Schema
› Structured output for reliable pipeline integration
› System instructions for role definition
› tau2-bench Agentic score: 86.4% (31B)

agente.py

tools = [
  {
    "name": "buscar_web",
    "description": "Search the internet",
    "parameters": {
      "type": "object",
      "properties": {
        "query": {"type": "string"}
      }
    }
  }
]

response = model.generate(
  messages=messages,
  tools=tools,
  tool_choice="auto"
)

🖼️

Variable res

Image

🎬

Native support

Video

🎙️

Speech recognition

Audio (E2B/E4B)

📊

MMMU Pro: 76.9%

Charts & OCR

Multimodal — Visión, Video y Audio

Modelos →

+140 Idiomas

Entrenado de forma nativa en más de 140 idiomas. Construye aplicaciones inclusivas y de alto rendimiento para una audiencia global con comprensión multilingüe de vanguardia (MMMLU: 85.2%).

العربية

Arabic

中文

Chinese

English

Français

French

Deutsch

German

हिन्दी

Hindi

Español

Spanish

140+

+133 more

Modelos → Comenzar