人工智能办公应用准确率不足25% 短期难以替代知识工作者

国际训练数据企业Mercor近日发布的专项研究报告揭示，智能技术在专业办公场景中的实际应用效能仍面临重大挑战。

区别于传统以创意写作为主的评估体系，该项研究首创APEX-Agents基准测试，通过模拟法律咨询、财务分析等12类典型职场任务，对全球8款主流系统进行多维度测评。

测试结果显示，所有受试系统综合准确率均未突破25%阈值。

表现最优异的两个系统分别仅获得24%和23%的评分，超过半数系统得分低于20%，最低评分系统准确率仅为4%。

这种表现与公众对智能技术替代白领工作的普遍预期形成显著落差。

深入分析表明，技术瓶颈主要集中在上下文关联处理环节。

专业办公场景往往需要同步调取电子邮件、即时通讯记录、电子表格等多模态数据源，并建立跨文档的逻辑关联。

当前系统在信息交叉验证、优先级判断等环节存在明显缺陷，约37%的错误源于关键信息提取遗漏，29%的失误由逻辑推理偏差导致。

Mercor首席执行官布伦丹·富迪指出，这种局限性使得现有技术更接近于"需要全程监督的初级职员"，而非独立作业的专业人士。

但值得关注的是，对比2023年同期5%-10%的基准数据，最新测试成绩反映出技术迭代速度超出行业预期。

特别是在非结构化数据处理领域，年度进步幅度达到历史峰值。

行业专家认为，该研究为智能技术发展提供了重要坐标。

一方面证实其在复杂决策场景的适用性仍有限，另一方面则揭示了特定细分领域的突破潜力。

美国人工智能协会技术标准委员会建议，后续研发应着重加强多模态信息融合能力，并建立行业统一的场景化评估体系。

从“能写会算”到“能办成事”，真正考验的是稳定性与可控性。

此次办公基准测试揭示了智能工具走向产业深水区必须跨越的门槛：不仅要更聪明，更要更可靠、更可验证。

面向未来，理性评估能力边界、完善应用治理与流程设计，推动人机协同各尽其长，或将成为释放技术红利、守住风险底线的关键路径。