开源大模型防火墙来了!——Wisent-Guard

这个框架能过滤大模型的输出,它的原理并不是简单的后置过滤(例如文本匹配敏感词)。而是会从基于词汇名单的潜在空间,创建激活向量或分类器,然后再模型的推理过程中监控模型激活。一旦发现触发了需要过滤的激活模式就会阻止模型继续输出。

更进一步的话,这个框架不仅能作为敏感词过滤,还可以纠正大模型表现,比如如果是确定要进行 function call 的模型 (AI Agent 用途),如果不发生 function call,可以提前终止并重写 prompt,让 function call 概率提高。

对本地部署大模型的独立开发者或者企业特别有用,建议有相关需求的可以mark一下。

地址:github.com/wisent-ai/wisent-guard

3
message-square
1
  • Limitee
    19 hours ago

    这个好诶😋