Capacidades Principales

Qué hace excepcional a Gemma 4

Seis capacidades revolucionarias que sitúan a Gemma 4 en la frontera de la IA de código abierto.

🧠

Razonamiento Avanzado

Planificación multi-paso y lógica profunda. Mejoras significativas en benchmarks de matemáticas (AIME 2026: 89.2%) y seguimiento de instrucciones, permitiendo descomposición de problemas complejos.

🤖

Flujos de Trabajo Agénticos

Llamada a funciones nativa, salida JSON estructurada e instrucciones de sistema. Construye agentes autónomos que interactúan con herramientas y APIs para ejecutar flujos de trabajo de forma confiable.

💻

Generación de Código

Generación de código offline de alta calidad. Convierte tu estación de trabajo en un asistente de código local. Puntuación del 80% en LiveCodeBench v6 de codificación competitiva.

👁️

Multimodal — Visión, Video y Audio

Todos los modelos procesan de forma nativa imágenes y video con resoluciones variables, destacando en OCR y comprensión de gráficos. E2B/E4B también admiten entrada de audio nativa para reconocimiento de voz.

🌍

+140 Idiomas

Entrenado de forma nativa en más de 140 idiomas. Construye aplicaciones inclusivas y de alto rendimiento para una audiencia global con comprensión multilingüe de vanguardia (MMMLU: 85.2%).

📄

Contexto Ultralargo

Procesa contenido extenso sin problemas. Los modelos de borde tienen una ventana de contexto de 128K; los más grandes llegan a 256K tokens, permitiendo pasar repositorios completos en un solo prompt.

Flujos de Trabajo Agénticos

Flujos de Trabajo Agénticos

Llamada a funciones nativa, salida JSON estructurada e instrucciones de sistema. Construye agentes autónomos que interactúan con herramientas y APIs para ejecutar flujos de trabajo de forma confiable.

  • Native function calling with type-safe JSON Schema
  • Structured output for reliable pipeline integration
  • System instructions for role definition
  • tau2-bench Agentic score: 86.4% (31B)
agente.py
tools = [
  {
    "name": "buscar_web",
    "description": "Search the internet",
    "parameters": {
      "type": "object",
      "properties": {
        "query": {"type": "string"}
      }
    }
  }
]

response = model.generate(
  messages=messages,
  tools=tools,
  tool_choice="auto"
)
🖼️
Variable res
Image
🎬
Native support
Video
🎙️
Speech recognition
Audio (E2B/E4B)
📊
MMMU Pro: 76.9%
Charts & OCR
Multimodal — Visión, Video y Audio

Multimodal — Visión, Video y Audio

Todos los modelos procesan de forma nativa imágenes y video con resoluciones variables, destacando en OCR y comprensión de gráficos. E2B/E4B también admiten entrada de audio nativa para reconocimiento de voz.

Modelos →
+140 Idiomas

+140 Idiomas

Entrenado de forma nativa en más de 140 idiomas. Construye aplicaciones inclusivas y de alto rendimiento para una audiencia global con comprensión multilingüe de vanguardia (MMMLU: 85.2%).

العربية
Arabic
中文
Chinese
English
English
Français
French
Deutsch
German
हिन्दी
Hindi
Español
Spanish
140+
+133 more