当前位置:论文写作 > 毕业论文范文 > 文章内容

不再节能的庞然巨物?GP100GPU英伟达Pascal新架构

主题:显存带宽计算 下载地址:论文doc下载 原创作者:原创作者未知 评分:9.0分 更新时间: 2024-04-11

简介:适合计算显存论文写作的大学硕士及相关本科毕业论文,相关计算显存开题报告范文和学术职称论文参考文献下载。

计算显存论文范文

显存带宽计算论文

目录

  1. 6.10平方毫米的庞然巨物
  2. 显存带宽计算:GTX660冰龙PCB与显存温度实测

GPU作为整个PC中最重要的计算设备之一,其性能和规格的发展一直是玩家关注的重点.在上一代GPU之争中,凭借高能耗比的Maxwell架构,英伟达(NVIDIA)产品备受好评.这也让玩家们更加期待英伟达的下一代架构,期待获得更高的能耗比.遗憾的是,今年GTC上英伟达虽发布了全新的Pascal架构,但我们没能看到桌面产品的更新,只看到了多款高性能计算的专业产品.迫不及待的我们只能从这些企业级产品中窥视论文范文GPU技术的发展脉络,接下来的桌面顶级卡会是什么样?不妨先让我们来看看已经发布的GP100.

文/图 张一平

显存带宽计算:GTX660冰龙PCB与显存温度实测

在2016年的GTC上,英伟达发布了全论文范文GPU架构和计算产品.相比之前的GM200和GK110,基于Pasc al架构的全新GP100在设计上做出了很大改进,整体性能表现值得期待.相比之前的Maxwell架构,Pascal架构可谓专门为计算而生,无论是全新的NVLink总线、强大的单、双精度计算能力,还是大大加强的原子计算等功能,都在向人们昭示着英伟达在高性能计算上的“野心”.那么,从GP100上展现出来的改变,究竟会怎样影响到未来即将发布的民用级图形GPU呢?本文在初步探寻这些问题答案的基础上,将会对GP100架构未来的图形GPU版本做出一些探索性的预测.

6.10平方毫米的庞然巨物

按照惯例,我们还是先来熟悉一下G P100的硬件规格.首先来看最为重要的工艺部分.G P10 0采用的是目前台积电最新的16n mFinFET Plus工艺.之前台积电在工艺上比较保守,并没有在20nm这样的半代节点下推出适用于GPU等大规模芯片的产品.因此无论AMD还是英伟达,在衡量利弊后一直在延续使用28nm HP或28nm HPM工艺.回想一下,从2011年底开始,一直到2016初年,28n m工艺已经使用了近五年时间.算是整个半导体产业中相当“长寿”的制造工艺了.

2015年上半年,台积电确定其工艺已经成功进化至16nm FinFET也就是16nm鳍式场效应晶体管,并且推出了加强版本16nm Fin FE TP l u s以及1 6 n m F F C(1 6 n mFinFET Plus Compact),其中前者主要用于大规模芯片制造.台积电宣称16nm FF+相比之前适用于大规模芯片的28nm HP,在同等功耗下性能可以提升40%,或者同等性能下功耗降低50%.对GPU来说,同功耗下频率会有显著提升,至少会带来40%左右的性能增幅.至于16nm FFC,则主要兼容主流和低功耗设备,可能会成为移动SOC的重要工艺来源.

工艺说完了,下面来说说规格.目前英伟达公布了专用于超级计算设备Tesla P100的GP100的规格,芯片内整合了153亿晶体管,核心面积为610平方毫米.相比之下,上一代GM200的核心面积为601平方毫米,芯片内整合了约80亿个晶体管,也就是说采用了全新工艺后,芯片晶体管密度提升了大约88%,新工艺的威力可见一斑.

计算结构大变

继续来看整个G P U的结构设计,新的Pascal在组织结构上还是遵循了G PU- G P C- 论文范文的论文范文结构.一个G P100 G PU中集成了6个GP C,每个GP C中设计了10个论文范文,总计有60个论文范文.每个论文范文中有64个执行FP32计算的CUDA Core和32个执行F P6 4计算的C U D ACore,FP32:FP64的比例为2:1.所以整个G P100中,共有3840个FP32 CUDA Core和1920个FP64CUDA Core.从规格来看,GP100相比之前的GM200,FP32 CUDACore的数量是后者的1.25倍,FP64CUDA C ore的数量则是GM200的20 倍.纹理单元方面,每个S M有4个纹理单元,总计有240个,是GM200的1.25倍,这一提升比例和FP32 CUDA Core相同.

从单元数量上就可以看出,英伟达大幅度加强了GP100的双精度计算能力,这和之前的GM200设计策略是截然相反的,GM200大幅度削弱了双精度计算能力.当然,其中原因主要是GM200并不针对双精度计算市场,针对这个市场的早先推出的Tesla K40,其基于GK110核心,集成了高达960个FP64单元,因此能够提供大约1680GFlops的FP64双精度计算能力(G M200只有96个,提供213GFlops的双精度计算能力).究其原因,可能英伟达同时考虑了市场和工艺因素,毕竟FP64计算单元无论是面积还是功耗都比较“惊人”,在28n m时代能够在GK110中提供如此高的双精度计算能力已经相当不容易了.因此随后在针对游戏市场的GM200上,英伟达干脆削弱了对双精度功能的支持,以提高能耗比.当然,在更新工艺后,GP100又可以大张旗鼓地提升双精度计算能力了.

那么,GP100的双精度计算能力到底有多强呢?根据英伟达的数据,即使在被屏蔽了部分计算核心,使用了非完整GP100 GPU的TeslaP100计算卡上,双精度计算能力也高达5304GFl ops,其数据大约是之前GK110的Tesla K40的3.16倍,考虑到Tesla P100的双精度单元只有1792个,相比之前的Tesl a K40的960个大约为1.86倍,那么多出来的性能增幅几乎都是拜工艺进步所带来的频率提升所赐了.

除了FP32和FP64的计算能力外,GP100还针对深度学习进行了优化.因为深度学习这样的计算只需要半精度即可,也就是FP16,因此英伟达在设计FP32单元时,使每个FP32 CUDA Core可以执行2个FP16计算.以Telsa P100为例,其单精度计算能力为10.608GFlops,理论最高半精度计算能力可达21.2GFlops,非常强大.

说完了核心部分,再来看看后端单元.GP100的ROP/RBE数量目前不详,考虑到G M200的96个ROP单元,GP100可能会做略微的放大,比如128个,以匹配计算能力的提升,并提高在高A A和高分辨率下的性能表现.另外,G P100在内存控制器上全部改用了HBM2,为此设计了高达8个内存控制单元,每个内存控制单元可以带来512bit位宽,8个总计4096bit,如果搭配1.4GHz的H BM2显存,总计显存带宽高达720GB/s.这个数据要比之前英伟达宣布的约1T B/s低了大约1/3,不过还是达到了GM200的288G B/s带宽的2.5倍.所以整体来说,应用HBM2带来的性能增幅还是足够令人满意的.此外,G P100目前配备了高达16GB的HBM2缓存,比之前GM200就挺逆天的12GB GDDR5显存再次扩大了不少.

在缓存方面,由于计算卡对缓存的异常渴求,因此英伟达再次提升了G P10 0 的缓存容量.之前的GM200缓存高达3M B、寄存器空间高达6MB就已经挺令人惊讶了,在GP100上,这两个数据分别提升到了4MB和14MB.更大的缓存和寄存器空间能有效提高科学计算效率,降低等待时间和存取数据延迟,是增强性能的最佳途径,当然考虑到缓存昂贵的成本,这个方法需要极为恰当的平衡,显然从Fermi时代就开始关注计算卡的英伟达在这方面还是颇有经验的.

芯片在硬件上的规格基本就是这样了,具体到实际产品上,英伟达在发布会上也推出了基于G P100的计算卡Tesla P100.相比GP100的高规格而言,Tesl a P100适当削减了一些规格,其原因可能是考虑到功耗控制和良率控制.比如TeslaP10 0只开放了5 6个S M,屏蔽了最高64个论文范文中的8个,这样FP32CUDA Core数量就降低到了3584个、FP64 CUDA Core数量降低至1792个、纹理单元数量降低至224个.令人惊讶的是,Tesla P100的基准频率高达1328MHz,Boost典型值高达1480MHz,想必在实际计算中的频率有可能更高.相比前代产品大约1100MHz左右的表现,新工艺的确带来了规模和频率上的大幅度提升,我们有理由相信,在去除了双精度等功能后的民用GPU,频率将设定得更为“恐怖”.

首次出现的NV Link总线

在G P10 0上,除了规格的放大外,人们最感兴趣的就是全新的NV Link总线.这个总线的由来很简单:在目前的P C、服务器架构下,PCI-E总线无法满足多路GPU并行计算的需求,因此英伟达联合IBM,设计了带宽远高于PCI-E的NV Link总线,借此加强GPU在多路并行下的性能,并大幅度提升自家产品在并行计算、深度学习等应用上的优势.

NV Link最大的优点在于超高的带宽.NV Link的一个通道带宽就高达40GB/s,每个GP100支持4个通道,总计可以实现160G B/s双向带宽.如此高的带宽在PC设备中是比较少见的,比如支持四通道DDR4内存的CPU内存带宽大约40GB/s,PCI- E 3.0 X16总线带宽也只有双向16GB/s,能实现类似的高带宽的设备也只有GPU显存控制器和显存之间了,比如256bit的GPU显存带宽大约在200GB/s左右.现在用作GPU之间互相连接的NV Link带宽竟然如此惊人,可见英伟达在G PU互联上所付出的努力.

不过目前的资料得知,从物理结构来看,NV Link主要还是PCB板上的连接接口,相比线缆而言,板载连接接口更为稳定和可靠,也更容易达到高速度.英伟达展示了NV Link的物理外观,看起来有点类似DV I连接端口,当然无论是接口数量还是型号定义都肯定是完全不同的.为了实现四通道NV Link连接,每个GP100的基座后部设计了两个可插拔的NV Link接口,用户可以轻松地拔下设备或者在不同设备间转移GP100—就像我们传统的PCI-E接口所实现的功能那样.

在GP100的白皮书中,英伟达展示了NV Link在八路GPU和四路GPU配置下的不同连接方案.借助于NV Link,四路GPU可以实现所有GPU之间的互联互通,带宽最少为一路NV Link也就是40GB/s,最多可以达到80GB/s.然后所有的GPU再通过PCI-E控制器连接到CPU上.也就是说GPU和GPU之间的数据沟通可以完全通过NV Link实现,不再通过PCI-E总线转接,这样大幅度提升了效率、降低了延迟.与此类似的是八路GPU配置,实际上它相当于利用两个互联的四路GPU配置实现,每个GPU除了和自己组内的CPU实现互联互通外,还单独留下一个NV Link通道和组外的GPU实现通信.这样一来,即使不同组的GPU之间存在数据转移或者跨越,也最多只需跨过一个GPU转接,甚至不需要实际意义上的数据跨越,也能够实现更多GPU的并行处理.当然,八路GPU的配置方案中,GPU之间的数据带宽只能是一个NV Li nk水平,也就是40GB/s.另外,八路GPU的配置方案,需要双路CPU和四个PCI- E控制器的支持,好在目前双路主板对这部分规格支持都很大方.当然,这项总线技术目前来看,主要受益的肯定是企业级客户,对游戏玩家来说,即使搭建双路SLI目前的PCI-E都还算不上瓶颈.

HBM2显存首次登场

说到显存,一直以来都是以“性能瓶颈”的状态出现的.由于传统的显存位宽无法大规模提升,因此厂商不得不使用更高频率的显存颗粒.不过,这样的情况从AMD的Fur y X上市后得到了很大缓解,人们看到了HBM显存的强大优势:由于和GPU集成在一个PCB基板上,因此显存位宽可以大幅地提升,从之前显卡的最大512b i t一举提升至4096bit.大幅度提升的显存位宽带来了显存带宽的大跃进,从而在很大程度上解决了显存带宽瓶颈问题.

不过AMD之前使用的HBM显存是第一代,堆叠层数和密度都不够高,最终单颗显存容量最高只有1GB,集成4颗HBM显存最大只能做到4G B,这在目前的高分辨率、高画质应用中是完全不够的.因此,厂商们推出了H B M2显存,堆叠层更高,支持4H i和8H i堆栈、频率也提升至最高2Gbps,在4096bit下最高可以提供1TB/s带宽,而首先使用HBM2显存的显卡,就是GP100核心的产品.

前文已经介绍过Te sl a P100显存的规格,16G B、4 0 9 6 b i t、720G B/s的带宽,除了容量还有提升的空间外,其他的规格都几乎已经成为目前显卡的最强产品,没有之一.除此之外,对计算卡而言,H BM2原生支持的EC C校验也大大降低了显卡在计算、存储数据过程中发生数据错误的概率,要知道GDDR5显存虽然支持校验,但是是以损失部分显存容量和带宽为代价的.目前HBM2在Telsa P100上频率还不是很高,因此最终带宽没有突破1TB/s,在未来的民用产品上,有可能在关闭了ECC校验后,频率可以拉得更高,带宽表现更为惊人.

更多细节尚待挖掘

从本文对Pascal架构的首款产品GP100即Tesla P100的介绍来看,英伟达这次推出了一款计算性能极其强大的产品,展示了英伟达对高性能、深度学习等高利润市场的重视程度.相比之下,全球PC市场持续下滑萎缩,独立显卡也越来越不好卖,英伟达显然期待转型来保持公司的毛利润和研发支出,是相当不容易的.

到这里,本文对P a s c a l架构和GP100 GPU的初步解读就全部结束了.实际上,对这样一颗大芯片来说,还有很多内容值得我们探寻.在未来的文章中,我们还将会对Pascal架构和GP100进行更深入、更细节的解读,而且在今年的台湾ComputeX之后,针对游戏市场的新架构显卡就会陆续上市,到时候我们将会有更加全面、深度的报道,请大家耐心等待.

Tips:Pascal架构游戏显卡大猜测

GP100的发布,使得Pascal架构的计算卡彻底论文范文在人们面前,强悍的双精度计算能力令人侧目.不过,玩家们最关心的应该还是新架构的游戏卡会是什么样子,不妨让我根据现有资料和GP100架构设计推测一番.

从目前的产品来看,G P100核心中拥有太多的双精度单元,不太适合作为游戏GPU.原因很简单,目前的游戏应用基本没有使用双精度的场合,甚至大部分光线追踪计算使用单精度都完全可以满足计算需求了.而FP64CUDA Core体积大、功耗高,对显卡频率和功耗都可能有极大负面影响,那么GP100核心是不是不会出现在游戏显卡上呢?

虽然现在这个问题还没有特别明确的答案,但是我们可以参考一下之前的GK110.GK110也拥有大量的双精度单元,但是英伟达做了巧妙的处理:当不使用双精度单元时,GPU的频率可以运行地更高、游戏性能更为出色;当用户在驱动中开启了双精度功能时,驱动将会强制降低显卡频率并使用更严格的功耗控制.那么,我们不妨猜测这样一种可能:GP100可以拥有游戏和双精度计算两种模式,前者的频率更高,甚至默认频率会突破1.5GHz,这样就能在FP32 CUDA Core只增加了25%的情况下,可以依靠更高的频率实现对上代显卡在游戏性能上的全面碾压.

除此之外,目前业内盛传英伟达还有一颗专门面向顶级玩家和高性能游戏显卡市场的芯片,代号“GP102”.这些传言显示,假设“GP102”真的存在的话,它有可能去除了大部分双精度单元并加入更多的FP32 CUDA Core,同时提高频率,这样就更容易实现对上代显卡的大幅度超越.不过,“GP102”这样的产品涉及到全部重新更改GPU原始设计,并且还有复杂的验证和流片过程,虽然可能部分测试和实验结果和GP100可以共用,但其设计成本和时间、人力消耗可能过多,对英伟达来说似乎有点得不偿失.因此本文倾向于“GP102”是一颗改进步进、彻底关闭了大部分双精度、频率大幅度提升的芯片,并不是重新设计的版本.

说了这么多,新的Pascal架构的顶级游戏显卡有多强呢?以GM200为例,本文大胆的猜测,全新的游戏级GPU的最终性能可能达到了目前TITANX的1.5至1.7倍,功耗和TITAN X相当,基本上可以轻松在高特效、4K分辨率下运行目前市场上绝大部分游戏了.

总结:本文关于计算显存论文范文,可以做为相关论文参考文献,与写作提纲思路参考。

显存带宽计算引用文献:

[1] 超市进销存论文题目集 超市进销存论文题目如何取
[2] 超市进销存系统方面论文题目 超市进销存系统论文题目怎么定
[3] 容易写的计算物理论文题目 计算物理论文题目怎样定
《不再节能的庞然巨物?GP100GPU英伟达Pascal新架构》word下载【免费】
显存带宽计算相关论文范文资料