理论教育 深入解析GPU体系架构

深入解析GPU体系架构

时间:2023-06-23 理论教育 版权反馈
【摘要】:CPU与GPU的主要区别在于存在于片内的缓存体系和数字逻辑运算单元的结构差异。全面开启GPU面向通用计算的新时代已到来。Kerpler GPU中的每个SM体系结构有192 CUDA核,而每个Maxwell SM包括128个CUDA核。在深度学习方面,与当前这代GPU架构相比,由Pascal支持的系统的神经网络训练性能提高了10倍。Pascal架构带来巨大的性能飞跃Pascal是非常强大的GPU内置计算架构。

深入解析GPU体系架构

GPU英文全称为Graphic Processing Unit,中文翻译为“图形处理器”。GPU从诞生之日起就以超越摩尔定律的速度发展,运算能力不断提升。业界很多研究者注意到GPU计算能力的潜力,于2003年SIGGRAPH大会上提出了GPGPU的概念。GPU逐渐从由若干专用的固定功能单元(Fixed Function Unit)组成的专用并行处理器向以通用计算资源为主、固定功能单元为辅的架构转变。

CPU与GPU的主要区别在于存在于片内的缓存体系和数字逻辑运算单元的结构差异。CPU虽然有多核,但总数没有超过两位数,每个核都有足够大的缓存容量和足够多的数字和逻辑运算单元,并辅助有很多加速分支判断更复杂的逻辑判断的硬件;GPU的核数远超CPU,被称为众核(NVIDIA Fermi有512个核)。每个核拥有的缓存容量相对小,数字逻辑运算单元也少而简单(GPU初始时在浮点计算上一直弱于CPU)。从结果上导致CPU擅长处理具有复杂计算步骤和复杂数据依赖的计算任务,如分布式计算数据压缩人工智能物理模拟,以及其他很多计算任务等。

随着GPU可编程性的不断增强,特别是CUDA等编程环境的出现,使GPU通用计算编程的复杂性大幅度降低。由于可编程性、功能、性能不断提升和完善,GPU已演化为一个新型可编程高性能并行计算资源。全面开启GPU面向通用计算的新时代已到来。

目前NVIDIA最新的CUDA图形计算架构主要是Fermi架构、Kepler架构、Maxwell架构以及最新的Pascal架构。

1.Fermi架构

基于GPU的第一代Fermi架构拥有30亿个晶体管,512个CUDA核。一个CUDA核在一个时钟周期内执行一个线程(或kernel)中的一个浮点数或整数指令。512个CUDA核是按照16个含有32个核的(Scalar Processor,流式多处理器,也叫SM,标量处理器)进行组织的。GPU拥有6个64bit的显存分区(DRAM),因此支持384bit的显存接口。最大支持6GB的GDDR5类型的显存容量,GPU和CPU之间通过PCI-e总线连接,千兆线程管理器负责将线程块分发到流式多处理器中。

2.Kepler架构

完整Kepler GK110架构包括15个SMX单元和6个64bit内存控制器。每个SMX单元包含192个单精度CUDA核、64个双精度单元(DP Unit)、32个特殊功能单元(SFU)和32个加载/存储单元(LD/ST),4个warp调度单元,8个指令分发单元。不同的产品将使用GK110不同的配置。

3.Maxwell架构

Maxwell SM架构在控制逻辑分区、负荷均衡、时钟门控粒度、编译器调度、每时钟周期发出指令条数等方面的改进以及其他诸多增强之处让Maxwell SM(也称“SMM”)能够在效率上远超Kepler SMX。全新的Maxwell SM架构能够在GM107中把SM的数量增至5个(GK107中仅有两个),而芯片面积仅增加25%。Maxwell GPU Tegra X1包含两个SM。每个SM包括基本计算核,该计算核称为CU-DA核心、纹理单元变形引擎。Kerpler GPU中的每个SM(称为SMX)体系结构有192 CUDA核,而每个Maxwell SM(称为SMM)包括128个CUDA核。但是,与Kepler CUDA核心相比,Maxwell CUDA的核心是一个重大升级,并且每个Maxwell核的性能高于Kepler核。

4.Pascal架构

革新性的NVIDIA Pascal架构是特别打造的计算机引擎,帮助计算机学习、观察和模仿我们这个有着密集计算需求的世界。从原材料硅到成品软件,Pascal的各个层面都采用创新方法精工制作。

Pascal架构有五大技术突破。NVIDIA Pascal架构建立在五大技术突破之上,启用了全新的计算平台,打破了从书桌端到数据中心的传统思维。

978-7-111-56928-2-Chapter01-22.jpg16nmFINFET工艺实现卓越能效

PascalGPU内含1500亿个由先进的16nm FINFET制造工艺打造的晶体管,是当今市场上极其巨大的FINFET芯片。它的设计能带来极其快速的性能和优异的能效,可承受对计算的需求近乎无限的工作负载。

978-7-111-56928-2-Chapter01-22.jpg16nmFINFET工艺实现卓越能效

PascalGPU内含1500亿个由先进的16nm FINFET制造工艺打造的晶体管,是当今市场上极其巨大的FINFET芯片。它的设计能带来极其快速的性能和优异的能效,可承受对计算的需求近乎无限的工作负载。

978-7-111-56928-2-Chapter01-23.jpgPascal架构带来巨大的性能飞跃

Pascal是非常强大的GPU内置计算架构。它让普通计算机变成性能强大的超级计算机。在深度学习方面,与当前这代GPU架构相比,由Pascal支持的系统的神经网络训练性能提高了10倍。

978-7-111-56928-2-Chapter01-23.jpgPascal架构带来巨大的性能飞跃

Pascal是非常强大的GPU内置计算架构。它让普通计算机变成性能强大的超级计算机。在深度学习方面,与当前这代GPU架构相比,由Pascal支持的系统的神经网络训练性能提高了10倍。

978-7-111-56928-2-Chapter01-24.jpg使用NVIDIA NVLINK实现更大程度的应用程序可扩展性

Pascal是个集成了革新性的NVIDIAN VLINK高速互联的架构。该技术专为扩展跨多个GPU的应用程序而设计,与目前一流的解决方案相比,其互联带宽加速效果提高了4倍。

978-7-111-56928-2-Chapter01-24.jpg使用NVIDIA NVLINK实现更大程度的应用程序可扩展性

Pascal是个集成了革新性的NVIDIAN VLINK高速互联的架构。该技术专为扩展跨多个GPU的应用程序而设计,与目前一流的解决方案相比,其互联带宽加速效果提高了4倍。

978-7-111-56928-2-Chapter01-25.jpg适用于大数据工作负载的采用HBM2的CoWoS技术

Pascal架构将处理器和数据集成在同一个程序包内,以实现更高的计算效率。采用HBM2的晶圆基底芯片(CoWoS)技术运用内存设计的创新方法,可提供相当于上一代解决方案的3倍以上的内存带宽性能。

978-7-111-56928-2-Chapter01-25.jpg适用于大数据工作负载的采用HBM2的CoWoS技术(www.daowen.com)

Pascal架构将处理器和数据集成在同一个程序包内,以实现更高的计算效率。采用HBM2的晶圆基底芯片(CoWoS)技术运用内存设计的创新方法,可提供相当于上一代解决方案的3倍以上的内存带宽性能。

978-7-111-56928-2-Chapter01-26.jpg新型人工智能(AI)算法

Pascal彻底采用全新设计,为深度学习和其他计算工作负载提供更好的性能。该架构利用全新的混合精度指令,可为深度学习提供每秒超过20万亿次浮点运算的性能峰值。

目前AMD主要的GPU架构是Cypress架构和GCN架构。

1.Cypress架构

代号Cypress的AMD HD5000系列是全球首款支持DirectX 11特效的GPU,它继承了R600架构高效的VLIW组织形式SIMD结构流处理器单元,又继承了RV770以来的RBE后端渲染单元改进,同时结合TSMC 40nm工艺,将性能和能耗完美匹配。但是在光环的背后,一直隐藏着AMD的忧虑,那就是作为Direct X11关键技术支撑的曲面细分单元。

2.GCN架构

GCN架构是一种全新的消费类GPU设计方式。GCN架构是世界上第一款28nm GPU架构,芯片内部集成了43亿个晶体管(GPU的最基本单元);而在以前,大致相同的空间只能容纳26亿个晶体管。将晶体管密度提高60%以上绝不仅仅是工程师们的杰作,也是世界上最强大、最先进GPU的职责所在。

GCN架构不仅拓宽了DirectX 11游戏的范围,而且也是AMD专为一般运算打造的第一款设计。AMD的28nm GPU配有32个计算单元(2048个流处理器),每个单元中包含一个标量协处理器,能够处理传统处理器排斥的工作负载和编程语言。GCN架构大量运用了能够识别GPU的编程语言,例如C++AMP和OpenCL,因此它才是真正顺应时代潮流而生的架构。

从架构上看,GPU相当于一个由向量处理器组成微型超级计算机。GPU用于通用计算存在以下若干优势:

978-7-111-56928-2-Chapter01-26.jpg新型人工智能(AI)算法

Pascal彻底采用全新设计,为深度学习和其他计算工作负载提供更好的性能。该架构利用全新的混合精度指令,可为深度学习提供每秒超过20万亿次浮点运算的性能峰值。

目前AMD主要的GPU架构是Cypress架构和GCN架构。

1.Cypress架构

代号Cypress的AMD HD5000系列是全球首款支持DirectX 11特效的GPU,它继承了R600架构高效的VLIW组织形式SIMD结构流处理器单元,又继承了RV770以来的RBE后端渲染单元改进,同时结合TSMC 40nm工艺,将性能和能耗完美匹配。但是在光环的背后,一直隐藏着AMD的忧虑,那就是作为Direct X11关键技术支撑的曲面细分单元。

2.GCN架构

GCN架构是一种全新的消费类GPU设计方式。GCN架构是世界上第一款28nm GPU架构,芯片内部集成了43亿个晶体管(GPU的最基本单元);而在以前,大致相同的空间只能容纳26亿个晶体管。将晶体管密度提高60%以上绝不仅仅是工程师们的杰作,也是世界上最强大、最先进GPU的职责所在。

GCN架构不仅拓宽了DirectX 11游戏的范围,而且也是AMD专为一般运算打造的第一款设计。AMD的28nm GPU配有32个计算单元(2048个流处理器),每个单元中包含一个标量协处理器,能够处理传统处理器排斥的工作负载和编程语言。GCN架构大量运用了能够识别GPU的编程语言,例如C++AMP和OpenCL,因此它才是真正顺应时代潮流而生的架构。

从架构上看,GPU相当于一个由向量处理器组成微型超级计算机。GPU用于通用计算存在以下若干优势:

978-7-111-56928-2-Chapter01-27.jpg性能价格比高。由于GPU将绝大多数晶体管用在了计算单元而非缓存和控制单元上,使得主流GPU的单精度浮点处理能力能够达到同期CPU的10倍左右,而存储器带宽则是CPU的5倍左右。GPU的价格也仅仅是CPU价格的2~3倍。

978-7-111-56928-2-Chapter01-27.jpg性能价格比高。由于GPU将绝大多数晶体管用在了计算单元而非缓存和控制单元上,使得主流GPU的单精度浮点处理能力能够达到同期CPU的10倍左右,而存储器带宽则是CPU的5倍左右。GPU的价格也仅仅是CPU价格的2~3倍。

978-7-111-56928-2-Chapter01-28.jpg能耗低。目前低、中端的GPU只需要通过PCI-e接口供电就足够了,而高端GPU也只需要通过电源PIN接口提供200W左右的电力。相对提供的计算性能而言,GPU的能耗付出不大。

978-7-111-56928-2-Chapter01-28.jpg能耗低。目前低、中端的GPU只需要通过PCI-e接口供电就足够了,而高端GPU也只需要通过电源PIN接口提供200W左右的电力。相对提供的计算性能而言,GPU的能耗付出不大。

978-7-111-56928-2-Chapter01-29.jpg便携性好。不仅台式机,笔记本中的GPU也支持通用计算。

978-7-111-56928-2-Chapter01-29.jpg便携性好。不仅台式机,笔记本中的GPU也支持通用计算。

978-7-111-56928-2-Chapter01-30.jpg直接可视化。GPU具有图形处理和通用计算两大属性,通用计算的结果可以在GPU上直接可视化。随着可视化性能越来越受到重视,在统一的GPU平台上融合可视化与通用计算具有重要的意义和价值。

978-7-111-56928-2-Chapter01-30.jpg直接可视化。GPU具有图形处理和通用计算两大属性,通用计算的结果可以在GPU上直接可视化。随着可视化性能越来越受到重视,在统一的GPU平台上融合可视化与通用计算具有重要的意义和价值。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈