Qué hace excepcional a Gemma 4
Seis capacidades revolucionarias que sitúan a Gemma 4 en la frontera de la IA de código abierto.
Razonamiento Avanzado
Planificación multi-paso y lógica profunda. Mejoras significativas en benchmarks de matemáticas (AIME 2026: 89.2%) y seguimiento de instrucciones, permitiendo descomposición de problemas complejos.
Flujos de Trabajo Agénticos
Llamada a funciones nativa, salida JSON estructurada e instrucciones de sistema. Construye agentes autónomos que interactúan con herramientas y APIs para ejecutar flujos de trabajo de forma confiable.
Generación de Código
Generación de código offline de alta calidad. Convierte tu estación de trabajo en un asistente de código local. Puntuación del 80% en LiveCodeBench v6 de codificación competitiva.
Multimodal — Visión, Video y Audio
Todos los modelos procesan de forma nativa imágenes y video con resoluciones variables, destacando en OCR y comprensión de gráficos. E2B/E4B también admiten entrada de audio nativa para reconocimiento de voz.
+140 Idiomas
Entrenado de forma nativa en más de 140 idiomas. Construye aplicaciones inclusivas y de alto rendimiento para una audiencia global con comprensión multilingüe de vanguardia (MMMLU: 85.2%).
Contexto Ultralargo
Procesa contenido extenso sin problemas. Los modelos de borde tienen una ventana de contexto de 128K; los más grandes llegan a 256K tokens, permitiendo pasar repositorios completos en un solo prompt.
Flujos de Trabajo Agénticos
Llamada a funciones nativa, salida JSON estructurada e instrucciones de sistema. Construye agentes autónomos que interactúan con herramientas y APIs para ejecutar flujos de trabajo de forma confiable.
- › Native function calling with type-safe JSON Schema
- › Structured output for reliable pipeline integration
- › System instructions for role definition
- › tau2-bench Agentic score: 86.4% (31B)
tools = [
{
"name": "buscar_web",
"description": "Search the internet",
"parameters": {
"type": "object",
"properties": {
"query": {"type": "string"}
}
}
}
]
response = model.generate(
messages=messages,
tools=tools,
tool_choice="auto"
) Multimodal — Visión, Video y Audio
Todos los modelos procesan de forma nativa imágenes y video con resoluciones variables, destacando en OCR y comprensión de gráficos. E2B/E4B también admiten entrada de audio nativa para reconocimiento de voz.
Modelos →+140 Idiomas
Entrenado de forma nativa en más de 140 idiomas. Construye aplicaciones inclusivas y de alto rendimiento para una audiencia global con comprensión multilingüe de vanguardia (MMMLU: 85.2%).