meta 刚刚又发了新模型——V-JEPA 2 (Video Joint Embedding Predictive Architecture 2)

这是个视频理解模型,能判断视频中正在发生什么并进行一定程度的预测。并且亮点应用是零样本机器人控制(如果用yolo需要针对训练,但是大模型的知识具有迁移性,视觉中出现新东西不用训练也能操作)

根据官方报告,这个模型的技术创新有:

  • 自我监督学习:模型不需要大量标注数据,而是通过"自己教自己"的方式学习
  • 遮挡预测机制:模型通过"填空题"的方式学习 - 遮住视频的某些部分,让模型预测被遮住的内容
  • 抽象表征学习:模型不是简单地记忆像素,而是学习视频的"抽象含义"
  • 世界模型架构:模型构建了对物理世界的内在理解,能够"想象"物体如何运动和互动
  • 高效的迁移能力:模型学会基础的物理理解后,可以快速适应新任务

另外这个模型是 yann-lecun 带头搞的

模型地址:huggingface.co/collections/facebook/v-jepa-2-6841bad8413014e185b497a6 blog: ai.meta.com/blog/v-jepa-2-world-model-benchmarks/

1
message-square
0