Configuración Rápida

Empieza a construir con Gemma 4

Elige tu plataforma preferida y ten Gemma 4 funcionando en minutos.

Elige el tamaño del modelo

E2B/E4B para móvil/borde, 26B MoE para inferencia rápida, 31B Dense para máxima calidad.

Elige tu plataforma

Hugging Face Transformers, Ollama para inferencia local, o Google AI Studio para acceso instantáneo en la nube.

Descarga y ejecuta

Los pesos del modelo están disponibles bajo Apache 2.0 — libre para uso comercial y de investigación.

Ollama (configuración local más rápida)

bash

# Instala Ollama: https://ollama.com
ollama pull gemma4:27b
ollama run gemma4:27b

Hugging Face Transformers

python

from transformers import pipeline
import torch

pipe = pipeline(
    "image-text-to-text",
    model="google/gemma-4-31b-it",
    device="cuda",
    torch_dtype=torch.bfloat16,
)

messages = [
    {"role": "user", "content": [
        {"type": "text", "text": "Explica el entrelazamiento cuántico de forma simple."}
    ]}
]

output = pipe(text=messages, max_new_tokens=512)
print(output[0]["generated_text"][-1]["content"])

Descargar Pesos del Modelo

Hardware Guide

Hardware	Modelo recomendado	Configuracion
Android / iPhone	E2B o E4B	App Google AI Edge Gallery
Raspberry Pi / Jetson Nano	E2B	LiteRT-LM o llama.cpp
GPU gaming 8-16GB VRAM	26B MoE (cuantizado)	Ollama o LM Studio
GPU gaming 24GB+ VRAM	31B Dense (cuantizado)	Ollama o LM Studio
H100 unico 80GB (fp16)	31B Dense (precision completa)	vLLM o Hugging Face
Google Colab Gratuito	26B MoE (int4)	Hugging Face Transformers

Modelos → Casos de Uso