三星新型存算一体 HBM2 存储器 AI 性能达 1.2TFLOPS

来源：雷锋网

存算一体或者叫存内计算技术随着 AI 的火热再一次成为业内关注的焦点，存储和计算的融合有望解决 AI 芯片内存墙的限制，当然，实现的方法也各不相同。雷锋网此前介绍过知存科技基于 NOR FLASH 存内计算，还有清华大学钱鹤、吴华强教授团队基于忆阻器的存算一体单芯片算力可能高达 1POPs。三星基于 HMB 的存内计算芯片又有何亮点？

三星最新发布的基于 HBM2 的新型内存具有集成的 AI 处理器，该处理器可以实现高达 1.2 TFLOPS 的计算能力，从而使内存芯片能够处理通常需要 CPU、GPU、ASIC 或 FPGA 的任务。

新型 HBM-PIM（Processing-in-memory，存内计算）芯片将 AI 引擎引入每个存储库，从而将处理操作转移到 HBM。新型的内存旨在减轻在内存和处理器之间搬运数据的负担，数据的搬运耗费的功耗远大于计算。

三星表示，将其应用于现有的 HBM2 Aquabolt 内存后，该技术可以提供 2 倍的系统性能，同时将能耗降低 70% 以上。该公司还声称，新存储器不需要对软件或硬件进行任何更改（包括对内存控制器），可以让早期采用者更快实现产品的上市。

三星表示，这种存储器已经在领先的 AI 解决方案提供商的 AI 加速器中进行了试验。三星预计所有验证工作都将在今年上半年完成，这标志着产品上市进入快车道。

三星在本周的国际固态电路会议（ISSCC）上展示了其新存储器架构的详细信息。

如您在上面的幻灯片中看到的，每个存储库都有一个嵌入式可编程计算单元（PCU），其运行频率为 300 MHz，每个裸片上总共 32 个 PCU。这些单元通过来自主机的常规存储命令进行控制，以启用 DRAM 中的处理功能，不同的是，它们可以执行 FP16 的计算。

该存储器还可以在标准模式下运行，这意味着新型的存储器既可以像普通 HBM2 一样运行，也可以在 FIM 模式下运行以进行存内数据处理。

自然地，在存储器中增加 PCU 单元会减少内存容量，每个配备 PCU 的内存芯片的容量（每个 4Gb）是标准 8Gb HBM2 存储芯片容量的一半。为了解决该问题，三星将 4 个有 PCU 的 4Gb 裸片和 4 个没有 PCU 的 8Gb 裸片组合在一起，实现 6GB 堆栈（与之相比，普通 HBM2 有 8GB 堆栈）。

值得注意的是，上面的论文和幻灯片将这种技术称为功能内存 DRAM（FIMDRAM，Function-In Memory DRAM），但这是该技术的内部代号，这个技术现在的名称是 HBM-PIM。三星展示的是基于 20nm 原型芯片，该芯片在不增加功耗的情况下可实现每 pin 2.4 Gbps 的吞吐量。

论文将基础技术描述为功能内存 DRAM（FIMDRAM），该功能在存储库中集成了 16 宽单指令多数据引擎，并利用存储库级并行性提供了比片外存储高 4 倍的处理带宽。另外，可以看到的是这种芯片存储解决方案无需对常规存储器控制器及其命令协议进行任何修改，这使得 FIMDRAM 可以更快在实际应用中使用。

不幸的是，至少在目前看来，我们不会在最新的游戏 GPU 中看到这些功能。三星指出，这种新内存要满足数据中心、HPC 系统和支持 AI 的移动应用程序中的大规模处理需求。

与大多数存内计算技术一样，希望这项技术能够突破存储芯片散热的限制，尤其是考虑到 HBM 芯片通常部署在堆栈中，而这些堆栈并不都有利于散热。三星的演讲者没有分享 HBM-PIM 如何应对这些挑战。

三星电子存储器产品计划高级副总裁 Kwangil Park 表示：" 我们开创性的 HBM-PIM 是业内首个针对各种 AI 驱动的工作负载（如 HPC，训练和推理）量身定制的可编程 PIM 解决方案。我们计划通过与 AI 解决方案提供商进一步合作以开发更高级的 PIM 驱动的应用。"

注，文中图片来自三星