Qwen2.5-VL可以识别超过1小时的长视频了!
Qwen2.5-VL 已经发布了,目前官方放出来3个大小的模型:
- Qwen2.5-VL-72B-Instruct-AWQ
- Qwen2.5-VL-7B-Instruct-AWQ
- Qwen2.5-VL-3B-Instruct-AWQ
这次的主要提升有:
- 视觉理解:提高了图像中识别和分析对象,文本,图表和布局的能力。
- 代理功能:充当能够推理并与工具动态交互的视觉 Agent(例如,使用计算机或电话)。
- 长期的视频理解:可以了解超过1小时的视频,并查明相关段以进行事件检测。
- 视觉本地化:准确地识别并在具有边界框或点的图像中定位对象,从而提供稳定的JSON输出。
- 结构化输出生成:可以为复杂数据(例如发票,表单和表格)生成结构化输出,可用于金融和商业等领域。
大模型竞技场 稍后将放出完整测评,敬请期待:

0

