英伟达、amd和谷歌打算在自家的ai 芯片里用hbf,这技术虽然速度比dram慢,但容量是

英伟达、AMD和谷歌打算在自家的AI芯片里用HBF,这技术虽然速度比DRAM慢,但容量是HBM的10倍。GPU靠着HBM和HBF搭成了多层架子,把数据容量给翻了上去。因为HBF写的次数有限,大概只有10万次左右,所以软件最好多放点心思在读操作上。 AI这活儿现在干得太猛了,内存系统简直顶不住,各家厂商不得不重新琢磨怎么把数据弄到加速器里。HBM以前就是当GPU的高速缓存用的,让AI工具能飞快地读和处理KV数据。不过HBM太贵了也很快,就是容量有点憋屈;HBF倒是便宜大碗速度慢。这个设计就是为了让GPU能看见更大的数据量,同时把写入次数压下来。 HBF 会跟HBM一起塞进AI加速器旁边,弄成个分级的架子。韩国科学技术院的金周镐教授就拿HBM比家里的书架,说它虽然快但书不多;HBF就像是个大图书馆书很多但得慢点翻。他说GPU要做推理任务得从HBM里先把叫KV缓存的数据读出来解析完再输出,这就很可能会靠HBF来帮忙。 “HBM跑得快,HBF跑得慢,”金教授讲,“但它的容量大概是前者的10倍。尽管它没限制读多少回,”“可写的次数却只有10万次左右。所以像OpenAI或谷歌写程序的时候,就得把软件设计得偏向读取操作。” HBF 要在HBM6这个版本里露脸,到时候好几个HBM存储堆通过网络连着就把带宽和容量都拉上去了。以后的HBM7说不定能像座“存储工厂”,让数据直接在HBF里处理完就完事了。这玩意是把多层3D NAND芯片竖着摞起来的,跟HBM堆DRAM一个理儿,也是用TSV连上的。 一个HBF单元能装512GB的货,带宽最高能冲到1.638TBps,把标准SSD NVMe PCIe 4.0给远远甩在了后面。SK海力士和闪迪公司已经晒出了图,显示上面的NAND层通过TSV跟底下的逻辑芯片连在一块儿成了个完整的积木堆。做原型芯片得小心翼翼防止底层变形;要是再往上堆NAND层,那些微凸点连接的难度又得往上窜。 三星和闪迪计划在接下来的24个月里把这套HBF系统塞进英伟达、AMD还有谷歌的AI产品里头。SK 海力士最近也要发个原型品出来看看;大家还凑成了个联盟在搞标准化的事儿。等到HBM6的时代到来了,HBF的应用估计会跑得更快一些。Kioxia已经搞出来一个用PCIe Gen 6 x8 协议、传输速度达到64Gbps的5TB HBF模块了。 金教授估摸着到了2038年,HBF的市场规模可能就要超过HBM了。