Qwen2.5-VL可以识别超过1小时的长视频了！

Qwen2.5-VL可以识别超过1小时的长视频了！

Qwen2.5-VL可以识别超过1小时的长视频了！

Qwen2.5-VL 已经发布了，目前官方放出来3个大小的模型：

Qwen2.5-VL-72B-Instruct-AWQ
Qwen2.5-VL-7B-Instruct-AWQ
Qwen2.5-VL-3B-Instruct-AWQ

这次的主要提升有：

视觉理解：提高了图像中识别和分析对象，文本，图表和布局的能力。
代理功能：充当能够推理并与工具动态交互的视觉 Agent（例如，使用计算机或电话）。
长期的视频理解：可以了解超过1小时的视频，并查明相关段以进行事件检测。
视觉本地化：准确地识别并在具有边界框或点的图像中定位对象，从而提供稳定的JSON输出。
结构化输出生成：可以为复杂数据（例如发票，表单和表格）生成结构化输出，可用于金融和商业等领域。

大模型竞技场稍后将放出完整测评，敬请期待：

2

You must log in or register to comment.