AI这次可是真把视频里的人和物怎么互动给搞懂了,这一步太关键了。咱们看视频的时候,眼睛一扫就知道那是自行车,那是红色,还能明白这人正骑着车。可是以前的计算机想让它同时认出物体、标注属性还得理解这些东西怎么互动,那可是个老大难问题。研究团队这回把这三件事打包成了“视频场景图”,AI看到画面的那一刻,就能像咱们人脑那样给出很有条理、还能抓住时间变化的关系描述。 为什么现在的系统总抓不住关系呢?因为以前的视频理解模型大多只能“认”东西,很难理解那些随着时间变化的复杂时空关系。比如椅子摆在桌子旁边,模型能认出是椅子和桌子,却说不出来那个“旁边”的词;苹果被拿起来了,模型只能看见苹果,却不明白“被拿起”这个动态动作。更要命的是关系本身会随着镜头移动而消失或者出现,像“苹果→被拿起→手中”这条链,必须在非常短的时间内被捕捉到。 为了训练出能看懂关系的AI,团队特意弄了一个史上最大的数据集SVG2:这里面有63万段视频,加起来差不多630天的时长;有660万个独立物体;5200万条属性描述;还有670万条关系标注。这规模一下子翻了一倍多,相当于把旧数据集从“小图书馆”升级成了“国家图书馆”。团队还搭了条全自动流水线来干活:在线和离线双轨追踪给每个物体发身份证;挑最清晰的8帧让模型生成句子描述;再用大模型推理出空间、运动这些关系。 为了让空间关系和其他关系不打架,他们还为这两类关系分别设计了提示模板。新模型TRASER是轨迹对齐场景图提取器,它有两套重采样器——一套像广角镜头把物体的一生压缩成向量;另一套像微距镜头拆细每个0.5秒的片段单独判断动作。这双重采样既省了计算量又抓住了多尺度时间特点。 训练的时候把SVG2和真人标注数据混着用,视觉编码器不动语言模型慢慢学。结果在四套测试集上表现亮眼:关系检测涨了15%到20%;物体预测涨了30%到40%;属性预测涨了15%;甚至比GPT-5还高13%。把TRASER生成的场景图输进问答系统,准确率立马提升1.5%到4.6%。 消融实验证明这两个“镜头”缺一不可;端到端评估也显示用自动生成的轨迹也能跑赢商业模型;长视频测试发现模型在30秒内训练好后,在166秒的长视频里也能保持物体识别几乎不掉线。这说明它学到的是真正的语义表示。 数据越多效果越香——属性任务从22.3%飙到了27.1%;不依赖真轨迹也能干活证明了这套系统能落地;还有更多应用等着它呢:视频搜索、自动驾驶、内容审核都能用得上。不过技术趋势也很明显:数据得自我循环才能越变越强;长视频效率还是得靠硬件硬刚才行。但这条路已经走通一半了!