华为云推出了dataarts fabric 这个数据+ai 融合平台,这玩意就把开发数据和ai 应用的活都包圆

华为云推出了DataArts Fabric这个数据+AI融合平台,这玩意就把开发数据和AI应用的活都包圆了。它给数据工程师、数据科学家还有AI应用开发工程师都留出了地儿,让大伙儿用自个儿最顺手的工具在同一个桌子上干活儿,开发和生产这两头就配合得特顺溜。 DataArts Fabric最牛的地方在于它能像变形金刚一样自己变大变小。它能按活儿的轻重缓急细水长流地加资源,跟那种为了应付高峰时段瞎堆资源池的做法比起来,足足能给客户省下50%的成本。它其实是个基于Serverless的池子,不仅能让数据活儿和AI活儿在一块混着跑,还能让CPU和NPU这种不一样的硬件资源也在一块混着跑,开发和生产更是一个地儿待着。这一来一去,就把客户花钱买资源的路子都给变了,让本来的业务高峰变缓波峰和填补谷仓成为可能。 这平台还提供那种极致的“白手套”服务,用户根本不用操心集群怎么管,几乎没门槛就能启动任务。就算业务变化快、需要试错也不用怕。还有它自带的高性能存储系统,跟华为云的大数据服务一起用,能让管理数据的事儿变得简单省钱。 引擎方面它很有一手。那个分布式SQL引擎把元数据、计算、缓存还有存储给解耦开了,每一层想怎么动资源就怎么动,互不影响。这种语句级别的伸缩能力太猛了,几秒钟就能查个TB级的数据,几分钟就能查PB级的数据。 再说说分布式Ray的支持。这玩意儿主要是帮客户搞定越来越大的数据处理和机器学习任务带来的麻烦。DataArts Fabric Ray把Ray-Data、Ray-Train、Ray-Serve这几个模块都拢一块了,正好对应分布式数据预处理、训练还有推理的各种场景。 管理资源也很全面。它能统一管CPU和NPU,调度的细颗粒度能下到容器级甚至Actor级。为了保险起见还弄了安全沙箱来隔离资源。 缓存加速这块也是跨引擎、多模态的。像数据缓存、模型缓存还有CheckPoint缓存都有支持。 Data+AI这块管理更人性化。它让CPU+NPU资源都归自己管;提供了完整的Workflow;让数据团队和AI团队再也不用相互等活儿;数据管理也不再需要OBS中转这道手续了。 Serverless的体验也很顺滑。有活儿来了才启动资源;秒级响应秒级伸缩;自动选最优硬件不用自己挑Flavor;高可靠高安全用的是多AZ多Cell架构;网络和算力都隔离得死死的。 生态方面它也是玩得花。它基于昇腾生态提供开源Ray的能力并搞了Redis的高可靠。Ray dashboard提供可视化监控和故障排查。SQL还兼容ORC、Parquet、Iceberg这些格式。 不管是数据工程、分布式机器学习还是实时湖仓分析,这套组合拳打下来都能帮客户搞定。