meta 刚刚又发了新模型——V-JEPA 2 （Video Joint Embedding Predictive Architecture 2）

meta 刚刚又发了新模型——V-JEPA 2 （Video Joint Embedding Predictive Architecture 2）

meta 刚刚又发了新模型——V-JEPA 2 （Video Joint Embedding Predictive Architecture 2）

这是个视频理解模型，能判断视频中正在发生什么并进行一定程度的预测。并且亮点应用是零样本机器人控制（如果用yolo需要针对训练，但是大模型的知识具有迁移性，视觉中出现新东西不用训练也能操作）

根据官方报告，这个模型的技术创新有：

自我监督学习：模型不需要大量标注数据，而是通过"自己教自己"的方式学习
遮挡预测机制：模型通过"填空题"的方式学习 - 遮住视频的某些部分，让模型预测被遮住的内容
抽象表征学习：模型不是简单地记忆像素，而是学习视频的"抽象含义"
世界模型架构：模型构建了对物理世界的内在理解，能够"想象"物体如何运动和互动
高效的迁移能力：模型学会基础的物理理解后，可以快速适应新任务

另外这个模型是 yann-lecun 带头搞的

模型地址：huggingface.co/collections/facebook/v-jepa-2-6841bad8413014e185b497a6 blog: ai.meta.com/blog/v-jepa-2-world-model-benchmarks/

1

You must log in or register to comment.