Gemma 3 do Google revoluciona o uso de LLM em dispositivos móveis e PCs com treinamento quantizado

24 abril, 2025

O Google apresentou seu modelo Gemma 3, que promete um desempenho otimizado em hardware acessível graças à quantização.

O novo modelo Gemma 3-27b-it-qat-q4_0-gguf do Google se destaca por sua capacidade de operar com eficiência em hardware local e dispositivos móveis. Esta inovação se baseia em uma abordagem de treinamento especializada que permite às variantes de Gemma 3 funcionarem sem problemas em GPUs de consumo, como as utilizadas em videogames, tornando seu uso acessível a mais usuários.

Até agora, os modelos Gemma 3 originais exigiam configurações de alto desempenho, utilizando potentes NVIDIA H100 e precisão BFloat16. Isso os mantinha afastados da maioria dos usuários. No entanto, a chave para essa mudança reside na quantização, um processo que reduz drasticamente o uso de memória.

A quantização implica armazenar pesos e ativações utilizando menos bits, frequentemente 8, 4 ou até mesmo apenas 2, em vez dos habituais 16 ou 32. Isso não só resulta em modelos menores, mas também os torna mais rápidos, uma vez que números de menor precisão são mais ágeis em seu processamento.

Otimização do uso de memória graças ao treinamento quantizado

Com Gemma 3, o Google implementa o Treinamento Consciente de Quantização (QAT), uma técnica que estabelece condições de menor precisão durante o processo de treinamento. Ao simular larguras de bit reduzidas desde o início, o modelo se adapta a essas limitações, o que reduz a queda de desempenho habitual ao operar com menor precisão.

As economias em memória são notáveis. Por exemplo, o modelo de 27B passa a exigir 54 GB de VRAM para apenas 14,1 GB no formato int4. O modelo de 12B é reduzido de 24 GB para 6,6 GB. Até mesmo as variantes menores se beneficiam: o modelo de 4B ocupa 2,6 GB, enquanto o de 1B precisa apenas de 0,5 GB.

O Google garante que, graças ao QAT, esses modelos são «robustos à quantização», apesar de não ter apresentado resultados de referência atualizados que respaldem essa afirmação. Esses modelos são compatíveis com motores de inferência comuns, facilitando sua integração em fluxos de trabalho existentes.

Há suporte nativo para plataformas como Ollama, LM Studio e MLX, entre outros. Ferramentas como llama.cpp e gemma.cpp também oferecem suporte para os modelos quantizados de Gemma em formato GGUF.

Além das versões oficiais do Google, a comunidade também está explorando variações sob a bandeira de «Gemmaverse», onde se experimenta com a quantização pós-treinamento para ajustar o tamanho, a velocidade e a qualidade dos modelos.

Deixe o primeiro comentário