karminski-牙医

站长 | 码农 | homelab 级垃圾佬 | 服务器命理师 | 专业服务器开光15年 | 有问题请反馈到站务频道 c/site | 关于我 bento

cake
Cake day: September 16th, 2024Joined 7 months ago

1
message-square
0

1
message-square
0

Llama-4可能要来了!

我在 ChatbotArena 随机测试的时候发现了2个新的 llama 模型:

代号跟别是 spider, cybele. 其中: cybele 这个模型输出特别慢,可能是个特别大的模型?400B+? 而spider特别话痨,输出了特别多并不需要的信息,可能用来创意写作会好一些,但是正常任务绝对不适合。 …

1
message-square
0

分享一个 linux 下的下载工具 rTorrent

1
message-square
0



2
message-square
2



显卡终于能插内存了?

3
message-square
0

  • 话说回来hunyuan这个web worker 代码要单独放一个,也是离谱,这些所有模型都没犯这么低级的问题。。。prompt明确要求了所有代码要放在同一个文件。感觉是训练材料太拉了。



大模型竞技场刚刚更新了 Hunyuan-TuborS-20250313 的评分。依旧是来自 ramondsq 同学的贡献。十分感谢。

1
message-square
0

Apple 平台的视觉推理框架 MLX-VLM 现在支持微调了!

这个发twi的是 mlx 核心贡献者之一。显示正在微调 Qwen2-VL-2B-Instruct。

1
message-square
0

千问3小时前发布了 QVQ-Max,一个图片/视频推理模型。

我测试了图片推理(吃惊的仓鼠),见图2。以及视频推理(win98屏保),见图3

1
message-square
0

1
message-square
0

更多的NVIDIA DGX Station GB300的图(图片来自STH)。

几个细节,图1,注意新的内存封装和安装方式,图2,ConnectX-8 800GB ,图3,可插拔BMC

1
message-square
2

LiveCodeBench 上的这个 kimi-1.6 有点猛啊?那么啥时候发布?

1
message-square
0

1
message-square
0

1
message-square
0

2
message-square
0



Gemini-2.5-Pro 这是获得了天顶星科技么?

来自 fiction.live 的大模型长文本理解(召回)测试,Gemini-2.5-Pro 竟然在120K上下文长度有 90.6% 的召回率, 这意味着你让AI在开篇埋个伏笔, 然后AI写了差不多10万字以后,仍然能记起来用这个伏笔…妈耶

不过这个测试的波动特别大,可以看到16K左右跌到了66.7 %(当然这个数值也很猛了,一般高于60%就是极好的水平),但是32K又恢复到了86.1%。

另外刚更新的 DeepSeek-V3-0324 也很不错,虽然略低于 DeepSeek-R1, 但仍然是很可用的。 …

1
message-square
1

2
message-square
3

给大家带来全网最速 DeepSeek-V3-0324 写代码实测!

直接说结论—— 超越 DeepSeek-R1!甚至超越 Claude-3.7! 难以想象这还不是一个 Thinking 模型!

DeepSeek-V3-0324 目前以 328.3 分在 KCORES 大模型竞技场排名第三 (图1),仅次于 claude-3.7-sonnet-thinking 和 claude-3.5 (没错 claude-3.5 在我们的测试下比 claude-3.7 要好一些)。

5
message-square
5

1
message-square
0



5
message-square
0











Karma

  • 264 Posts
  • 403 Comments

Homelab

  • coming soon

Trophy Case