经过多年发展,GPU 硬件也迎来了多级缓存结构。通过精心的设计,其能够有效缓和各个 PC 计算组件之间的性能掣肘。但不同 GPU 制造商之间的架构设计思路,仍有着较大的差别。以目前占独显市场最多的英伟达和 AMD 为例,两家公司旗下的竞品 GPU 就具有不同大小的寄存器和 L1 / L2 缓存。 ![]() 英伟达 A100 GPU 开发板 比如英伟达 A100 GPU 的 L2 缓存容量为 40MB,直接增加到了上一代 V100 的七倍。显然,这考虑到了许多新应用程序需要更大的缓存,且为后续不断增长的使用需求而预留了一定的空间。 有趣的是,Chips and Cheese 于近日发布了一份有趣的报告,揭示了 AMD 最新一代的 RNDA 2、和英伟达 Ampere GPU 之间的显存延迟表现。 ![]() 显存延迟比较(越低越好) 通过在 OpenCL 中使用简单的指针追逐测试,其得到了一份有趣的结果。其中采用 RDNA 2 架构的 AMD Radeon RX 6800 XT 显卡,其 Infinity Cache 高速缓存的表现很是亮眼。 与采用 Ampere 架构的英伟达 GeForce RTX 3090 旗舰显卡相比,即便显存(VRAM)方面的延迟几乎一致,但 IF 设计还是大幅降低了 Radeon RX 6000 显卡的访问延迟。 ![]() AMD Infinity Cache 资料图 TechPowerUp 指出,英伟达 Ampere GPU 使用了 L1 + L2 两级缓存系统,测试表明这套解决方案的效用相当缓慢。在从 Ampere SM(L1 缓存)向 L2 传输的时候,数据延迟竟高达 100ns 。 另一方面,尽管 AMD RDNA 2 GPU 具有 L0 / L1 / L2 三级缓存系统(Infinity Cache 理论上也可以视作 L3 缓存),但 A 卡的显存延迟仍低得多。即便从 L1 到 L2,也只需 66 ns 。 文章来源于cnBeta,转载目的在于传递更多信息,并不代表本号赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在后台联系微信,我们将在第一时间删除内容! |