2024年，旧金山初创公司standardintelligence搞出了fdm-1，号称是世界上第一个能把电脑行为给学

2024年，旧金山初创公司StandardIntelligence搞出了FDM-1，号称是世界上第一个能把电脑行为给学全的模型。他们找了一堆视频来看，足足看了1100万小时，每秒能处理30帧画面，特别适合CAD画图、网站测试还有开车这种事儿。现在大家用的大多是Anthropic在2024年10月给Claude加的ComputerUse功能，就是截个屏然后靠AI识别东西来操作电脑。但是StandardIntelligence觉得这种只看截图的方式太死板了，根本学不到人类行为的那些复杂门道。所以他们决定换个路子，让电脑像人一样直接看大量的视频来学操作。虽然跟OpenAI的VPT有点像，不过这次他们数据用得更多，时间拉得更长。 StandardIntelligence先让4万小时的人工录屏数据训练了个逆向动力学模型（IDM），然后用它去给网上那1100万小时的视频打标签。虽然这样做会有点噪音或者歧义，但也算是把路给走通了。在编码方面，他们弄了个高效的编码器，把快两小时的视频压缩成一个token序列，效率比以前高了50倍，比OpenAI的还高100倍。有了这个大后盾，FDM-1处理那种连续滚动、3D建模和玩游戏的活儿就显得特别顺手。 StandardIntelligence还搞了个能跑8万台虚拟机的大系统来测这玩意儿。结果发现，用IDM自动标注的数据比人工做的还要准一些。尤其是在自动驾驶上，FDM-1只练了不到一小时就能用方向键指挥车在旧金山转圈圈，准确率到了50%。不过现在这东西还没变成大家能用的产品。它还不会听人话跟着指令走，演示的都是它自己瞎折腾或者按预设动作来的。所以在实际干活的时候怎么让它听懂人话、做好规划就成了个大难题。不过未来要是能把语言能力和高级规划模块加进去，FDM-1说不定能和现在的那些AI代理结合在一起。看来这个领域以后可能真要变天了。