英伟达、amd和谷歌打算在自家的ai 芯片里用hbf，这技术虽然速度比dram慢，但容量是

英伟达、AMD和谷歌打算在自家的AI芯片里用HBF，这技术虽然速度比DRAM慢，但容量是HBM的10倍。GPU靠着HBM和HBF搭成了多层架子，把数据容量给翻了上去。因为HBF写的次数有限，大概只有10万次左右，所以软件最好多放点心思在读操作上。 AI这活儿现在干得太猛了，内存系统简直顶不住，各家厂商不得不重新琢磨怎么把数据弄到加速器里。HBM以前就是当GPU的高速缓存用的，让AI工具能飞快地读和处理KV数据。不过HBM太贵了也很快，就是容量有点憋屈；HBF倒是便宜大碗速度慢。这个设计就是为了让GPU能看见更大的数据量，同时把写入次数压下来。 HBF 会跟HBM一起塞进AI加速器旁边，弄成个分级的架子。韩国科学技术院的金周镐教授就拿HBM比家里的书架，说它虽然快但书不多；HBF就像是个大图书馆书很多但得慢点翻。他说GPU要做推理任务得从HBM里先把叫KV缓存的数据读出来解析完再输出，这就很可能会靠HBF来帮忙。 “HBM跑得快，HBF跑得慢，”金教授讲，“但它的容量大概是前者的10倍。尽管它没限制读多少回，”“可写的次数却只有10万次左右。所以像OpenAI或谷歌写程序的时候，就得把软件设计得偏向读取操作。” HBF 要在HBM6这个版本里露脸，到时候好几个HBM存储堆通过网络连着就把带宽和容量都拉上去了。以后的HBM7说不定能像座“存储工厂”，让数据直接在HBF里处理完就完事了。这玩意是把多层3D NAND芯片竖着摞起来的，跟HBM堆DRAM一个理儿，也是用TSV连上的。一个HBF单元能装512GB的货，带宽最高能冲到1.638TBps，把标准SSD NVMe PCIe 4.0给远远甩在了后面。SK海力士和闪迪公司已经晒出了图，显示上面的NAND层通过TSV跟底下的逻辑芯片连在一块儿成了个完整的积木堆。做原型芯片得小心翼翼防止底层变形；要是再往上堆NAND层，那些微凸点连接的难度又得往上窜。三星和闪迪计划在接下来的24个月里把这套HBF系统塞进英伟达、AMD还有谷歌的AI产品里头。SK 海力士最近也要发个原型品出来看看；大家还凑成了个联盟在搞标准化的事儿。等到HBM6的时代到来了，HBF的应用估计会跑得更快一些。Kioxia已经搞出来一个用PCIe Gen 6 x8 协议、传输速度达到64Gbps的5TB HBF模块了。金教授估摸着到了2038年，HBF的市场规模可能就要超过HBM了。