Unsloth 现在支持微调 Gemma-3 了

他们与 Hugging Face 合作创建了一个免费的笔记本，使用 Gemma 3 和 GRPO 训练你自己的推理模型

地址：colab.research.google.com/github/unslothai/notebooks/blob/main/nb/HuggingFace Course-Gemma3_(1B)-GRPO.ipynb

另外团推提到：在旧 GPU 上，Gemma 3 的推理和训练都不支持 float16，这个问题影响了所有框架，包括Unsloth、transformers、vLLM 等，如果使用 float16，Gemma 3 会无限激活，因为 float16 的最大范围是 65504，而 Gemma 3 的值达到 800,000 或更大。Llama 3.1 8B 的最大激活值大约是 324。

blog地址：docs.unsloth.ai/basics/reasoning-grpo-and-rl