Unsloth 现在支持微调 Gemma-3 了
他们与 Hugging Face 合作创建了一个免费的笔记本,使用 Gemma 3 和 GRPO 训练你自己的推理模型
另外团推提到:在旧 GPU 上,Gemma 3 的推理和训练都不支持 float16,这个问题影响了所有框架,包括Unsloth、transformers、vLLM 等,如果使用 float16,Gemma 3 会无限激活,因为 float16 的最大范围是 65504,而 Gemma 3 的值达到 800,000 或更大。Llama 3.1 8B 的最大激活值大约是 324。
blog地址:docs.unsloth.ai/basics/reasoning-grpo-and-rl

0