2024年,旧金山初创公司standardintelligence搞出了fdm-1,号称是世界上第一个能把电脑行为给学

2024年,旧金山初创公司StandardIntelligence搞出了FDM-1,号称是世界上第一个能把电脑行为给学全的模型。他们找了一堆视频来看,足足看了1100万小时,每秒能处理30帧画面,特别适合CAD画图、网站测试还有开车这种事儿。现在大家用的大多是Anthropic在2024年10月给Claude加的ComputerUse功能,就是截个屏然后靠AI识别东西来操作电脑。但是StandardIntelligence觉得这种只看截图的方式太死板了,根本学不到人类行为的那些复杂门道。所以他们决定换个路子,让电脑像人一样直接看大量的视频来学操作。虽然跟OpenAI的VPT有点像,不过这次他们数据用得更多,时间拉得更长。 StandardIntelligence先让4万小时的人工录屏数据训练了个逆向动力学模型(IDM),然后用它去给网上那1100万小时的视频打标签。虽然这样做会有点噪音或者歧义,但也算是把路给走通了。在编码方面,他们弄了个高效的编码器,把快两小时的视频压缩成一个token序列,效率比以前高了50倍,比OpenAI的还高100倍。有了这个大后盾,FDM-1处理那种连续滚动、3D建模和玩游戏的活儿就显得特别顺手。 StandardIntelligence还搞了个能跑8万台虚拟机的大系统来测这玩意儿。结果发现,用IDM自动标注的数据比人工做的还要准一些。尤其是在自动驾驶上,FDM-1只练了不到一小时就能用方向键指挥车在旧金山转圈圈,准确率到了50%。 不过现在这东西还没变成大家能用的产品。它还不会听人话跟着指令走,演示的都是它自己瞎折腾或者按预设动作来的。所以在实际干活的时候怎么让它听懂人话、做好规划就成了个大难题。不过未来要是能把语言能力和高级规划模块加进去,FDM-1说不定能和现在的那些AI代理结合在一起。看来这个领域以后可能真要变天了。