Configuración Rápida

Empieza a construir con Gemma 4

Elige tu plataforma preferida y ten Gemma 4 funcionando en minutos.

1

Elige el tamaño del modelo

E2B/E4B para móvil/borde, 26B MoE para inferencia rápida, 31B Dense para máxima calidad.

2

Elige tu plataforma

Hugging Face Transformers, Ollama para inferencia local, o Google AI Studio para acceso instantáneo en la nube.

3

Descarga y ejecuta

Los pesos del modelo están disponibles bajo Apache 2.0 — libre para uso comercial y de investigación.

Ollama (configuración local más rápida)
bash
# Instala Ollama: https://ollama.com
ollama pull gemma4:27b
ollama run gemma4:27b
Hugging Face Transformers
python
from transformers import pipeline
import torch

pipe = pipeline(
    "image-text-to-text",
    model="google/gemma-4-31b-it",
    device="cuda",
    torch_dtype=torch.bfloat16,
)

messages = [
    {"role": "user", "content": [
        {"type": "text", "text": "Explica el entrelazamiento cuántico de forma simple."}
    ]}
]

output = pipe(text=messages, max_new_tokens=512)
print(output[0]["generated_text"][-1]["content"])

Hardware Guide

HardwareModelo recomendadoConfiguracion
Android / iPhone E2B o E4B App Google AI Edge Gallery
Raspberry Pi / Jetson Nano E2B LiteRT-LM o llama.cpp
GPU gaming 8-16GB VRAM 26B MoE (cuantizado) Ollama o LM Studio
GPU gaming 24GB+ VRAM 31B Dense (cuantizado) Ollama o LM Studio
H100 unico 80GB (fp16) 31B Dense (precision completa) vLLM o Hugging Face
Google Colab Gratuito 26B MoE (int4) Hugging Face Transformers