算力公有云的尴尬

虽说在2020年中美总算力其实旗鼓相当，但到2025年咱们的AI算力却仅占人家的1/3，这缺口着实不小。要是再去看看宏观数据，就会发现去年推广数据库AIOPS项目时，咱们国内绝大部分客户都接不住大语言模型那种大参数模型，顶多能支撑70B的规模。为了应对这种局面，我们只好把对知识图谱的质量要求提得更高，好让AI能在32B这种小一点的模型上也发挥出好效果。就算对算力的要求压缩到了最低限度，大多数企业还是跑不动普遍的AI应用，最多也就只能把AIOPS平台给撑起来。咱们系统里现在有SQL自动优化、故障预警诊断、数据库风险分析预警这些能自动化跑的模块。要是让AI像专家那样全天候地照看数据库系统，其实挺省力的。可惜这些功能一旦全都打开，对算力的要求就太高了。举个例子吧，假设系统里纳管了1000个数据库实例，一天下来每个实例要优化24条SQL，还得给5条告警做自动诊断，再加上6次状态巡检。这么一来总共得跑35000个后台任务。按照公有云每个任务两分钱来算（实际成本甚至不到一分钱），一天的成本大概700块钱，企业还是能咬牙挺住的。但要是换成自家的算力平台来跑，光建这个平台就得花大价钱。简单算算，每个小时要处理1000个SQL优化任务、250个巡检任务和200多个诊断任务，加起来一个小时的任务量能达到1500到2000个左右。对于那些自己搞AI算力的用户来说，这压力确实不小。去年我们上线部署BIC-QA这个国产数据库智能助手平台的时候就发现，很多用户的AI中台根本没法支持后台自动任务一直开着。自动化本来是AIOPS的基本功，想让AI自主运营肯定是未来的大趋势。但因为企业自己的算力不够用，这种最先进的模式就只能沦为按需调用智能体的样子。这样一来AIOPS系统的效率就被大大限制住了。相比之下用公有云的算力成本是最低的，因为它能集中资源和共享时间。要是建不起安全可靠的行业算力公有云平台，企业的AI应用就会受到很大的限制。不光是AIOPS有这个问题，业务领域的情况也差不多，而且业务领域对算力的需求规模还要更大。虽说现在市面上出了不少国产算力卡，价格也不贵。不过国产卡在训练方面跟国外还是有不小差距的，好在推理上勉强能用。但国产卡的生态特别乱，就拿某款64G的推理卡来说吧，售价不到4万。可想找到一台能完美适配它的国产服务器却很难找到。就算找到一台单卡服务器配上也得超过10万的成本跟NVIDIA的卡相比其实没啥价格优势。还有个麻烦是来自决策层的问题。好多企业领导不懂IT，觉得买了AI一体机装上Deepseek或者Qwen就能跑RAG知识问答了，这就万事大吉了。其实企业在AI算力上到底该投多少钱，在这些高层眼里根本没数。这种统筹上的缺失肯定会在未来企业搞AI应用的时候变成最大的绊脚石。记得去年春节我在家办公也是因为不想跑来跑去见合作伙伴。虽然才刚过完初五我就进状态开始工作了，并且这几天把达梦数据库新一轮的知识标注也弄完了。关于AI算力这个问题去年我是不担心的，因为那时候我认识的客户几乎人手一台Deepseek一体机这种算力平台，各大云厂商和第三方算力公有云的发展也都挺快。谁能想到半年后现实的情况会这么让人头疼呢？因为咱们国家企业级应用这块太特殊了，有各种各样的原因让大家对安全有一种近乎病态的追求。哪怕是小企业也没钱自建算力平台或者不敢用公有云服务。为了安全合规考核必须搞私有化部署的原因大部分是上面要求的而不是真的安全本身出了问题。在这种情况下用不起便宜的公有云算力成本自然就比国外高很多。不过好消息是现在国产服务器也上市了很多虽然生态不完善但推理能力还凑合。要是能把安全可信的行业算力公有云平台建起来就能解决大部分难题了否则很多企业都只能干瞪眼没法搞AI应用。