大家都在等 DeepSeek-R2, 不过, 有没有想过把 DeepSeek-V3-0324 变成推理模型?
来看这个新模型 DeepSeek-R1T-Chimera,它基于DeepSeek-R1构建,并使用DeepSeek-V3-0324 数据进行微调。
模型作者的测试结果是水平与 DeepSeek-R1 一样好,但是思考时间显著变短了,可以当作 DeepSeek-R1 加强版使用。
地址:huggingface.co/tngtech/DeepSeek-R1T-Chimera

0
大家都在等 DeepSeek-R2, 不过, 有没有想过把 DeepSeek-V3-0324 变成推理模型?
来看这个新模型 DeepSeek-R1T-Chimera,它基于DeepSeek-R1构建,并使用DeepSeek-V3-0324 数据进行微调。
模型作者的测试结果是水平与 DeepSeek-R1 一样好,但是思考时间显著变短了,可以当作 DeepSeek-R1 加强版使用。
地址:huggingface.co/tngtech/DeepSeek-R1T-Chimera