Configuración Rápida
Empieza a construir con Gemma 4
Elige tu plataforma preferida y ten Gemma 4 funcionando en minutos.
1
Elige el tamaño del modelo
E2B/E4B para móvil/borde, 26B MoE para inferencia rápida, 31B Dense para máxima calidad.
2
Elige tu plataforma
Hugging Face Transformers, Ollama para inferencia local, o Google AI Studio para acceso instantáneo en la nube.
3
Descarga y ejecuta
Los pesos del modelo están disponibles bajo Apache 2.0 — libre para uso comercial y de investigación.
# Instala Ollama: https://ollama.com
ollama pull gemma4:27b
ollama run gemma4:27b from transformers import pipeline
import torch
pipe = pipeline(
"image-text-to-text",
model="google/gemma-4-31b-it",
device="cuda",
torch_dtype=torch.bfloat16,
)
messages = [
{"role": "user", "content": [
{"type": "text", "text": "Explica el entrelazamiento cuántico de forma simple."}
]}
]
output = pipe(text=messages, max_new_tokens=512)
print(output[0]["generated_text"][-1]["content"]) Hardware Guide
| Hardware | Modelo recomendado | Configuracion |
|---|---|---|
| Android / iPhone | E2B o E4B | App Google AI Edge Gallery |
| Raspberry Pi / Jetson Nano | E2B | LiteRT-LM o llama.cpp |
| GPU gaming 8-16GB VRAM | 26B MoE (cuantizado) | Ollama o LM Studio |
| GPU gaming 24GB+ VRAM | 31B Dense (cuantizado) | Ollama o LM Studio |
| H100 unico 80GB (fp16) | 31B Dense (precision completa) | vLLM o Hugging Face |
| Google Colab Gratuito | 26B MoE (int4) | Hugging Face Transformers |