karminski-牙医

站长 | 码农 | homelab 级垃圾佬 | 服务器命理师 | 专业服务器开光15年 | 有问题请反馈到站务频道 c/site | 关于我 bento

cake
Cake day: September 16th, 2024Joined 8 months ago

BitNet 模型又增加了,来看 TII 的 Falcon-E-1B/3B

据官方说这个模型性能与 Qwen3-1.7B 相当,但内存占用仅有 Qwen3-1.7B 的 1/4

1
message-square
0

1
message-square
0


4
message-square
1

1
message-square
2

1
message-square
0

微软发了篇新论文 ARTIST (Agentic Reasoning and Tool Integration in Self-improving Transformers, 使用自主推理与工具的自改进 Transformer 框架)

我刚看完, 直接用大白话给大家总结下论文讲了啥

这个框架集成了外部工具调用和自主推理, 来提升效果. 并且推理可以多步骤. 得到结果后进行强化学习, 不断反刍, 最终效果提升高达 22%.

1
message-square
0

速报:Manus 不用邀请码就能用了哈

1
message-square
0

1
message-square
0


2
message-square
0

来个 Qwen3 愉快使用要规避的几个问题, 尤其是使用 Qwen3-30B-A3B 或者 Qwen3-32B :

​1. 上下文避免触及到召回长度,尤其是快到 16K 就应该新开了,不然质量下降很快

​2. 模型为了小又效果好,推理时长和 token 输出是要比其它模型高很多的。(想象一下神童小孩哥没学过高数,然后却能通过现有知识手撕吉米多维奇,那么他思考的时间肯定是要比同样的神人大学生要花时间的)。这个问题从 qwq 时代就存在。可以看我这个截图,运行同样数量的请求 qwq 消耗的 token 量是 claude-3.7-sonnet-thinking 的1.7倍。大部分都花在思考上了

2
message-square
3

大瓜:llama-4 用了 27 个模型刷榜 ChatBot Arena

来吃瓜昨天那个扒 ChatBot Arena 榜单造假的论文, 我看了一遍理了下,主要是这么几个地方。但在此之前,给不熟悉这个测试的同学说下他们是怎么测试的

1
message-square
0

小米 3小时前刚刚发布了四个模型!

MiMo-7B-Base 是基础模型 MiMo-7B-RL-Zero 是基于基础模型训练的 RL 模型 (强化学习) MiMo-7B-SFT 是基于基础模型训练的 SFT 模型 (监督式微调) MiMo-7B-RL 是基于 SFT 模型再 RL 的模型

2
message-square
0

Qwen3 的长上下文召回测试出了!

Fiction.Livebench 公布了最新的测试结果,Qwen3 整个系列在16K上下文时召回均能保持在60%以上(除了Qwen3-30B-A3B, 毕竟激活只有3B).

能得出的结论有:

如果运行30B大小的模型,那么还是优先选择 Qwen3-32B 而非 MoE 的Qwen3-30B-A3B。 …

1
message-square
0

Qwen3 写代码能力测试来啦!

简单说结论——可以加显卡了,这就是可以本地部署的最强开源写代码大模型

2
message-square
1

2
message-square
1

Qwen3 发布啦!

本次发布的模型包括:

MoE 模型 Qwen3-235B-A22B (MoE, 总大小235B, 激活参数22B, 上下文128K) Qwen3-30B-A3B (MoE, 总大小30B, 激活参数3B, 上下文128K) …

1
message-square
1

好家伙,模型还没发,推理引擎已经支持完毕了。mlx 最新版本已经全部支持即将发布的 Qwen3。

(mlx是Apple的大模型推理框架,可以在MacOS上运行大模型)

1
message-square
0

2
message-square
0

1
message-square
0

2
message-square
0








  • 话说回来hunyuan这个web worker 代码要单独放一个,也是离谱,这些所有模型都没犯这么低级的问题。。。prompt明确要求了所有代码要放在同一个文件。感觉是训练材料太拉了。












Karma

  • 336 Posts
  • 408 Comments

Homelab

  • coming soon

Trophy Case