当前位置:论文写作 > 毕业论文范文 > 文章内容

全面革新ARMCortex-A72架构深度

主题:低功耗高性能显卡 下载地址:论文doc下载 原创作者:原创作者未知 评分:9.0分 更新时间: 2024-03-24

简介:适合功耗性能论文写作的大学硕士及相关本科毕业论文,相关功耗性能开题报告范文和学术职称论文参考文献下载。

功耗性能论文范文

低功耗高性能显卡论文

目录

  1. 1.全面基于ARMv8-A架构研发
  2. 2.超标量体系结构,采用变长和无序管道设计
  3. 3.拥有分支目标缓冲器的动态分支预测以及全局历史缓冲RAM,支持返回堆栈和间接预测
  4. 4.48通道的全关联L1指令TLB,原生支持4KB、64GB以及1MB的页面大小.
  5. 5.32通道的全关联L1数据TLB,原生支持4KB、64GB以及1MB的页面大小.
  6. 6.四路集成相关1024通道的L2缓存(每核心).
  7. 7.固定48KB L1指令缓存和32KB L1数据缓存
  8. 1.0.支持AMBA 4 AXI扩展界面
  9. 1.1.可选ACP加速器
  10. 1.2.基于ETMv4的ETM
  11. 1.3.支持基于PMUv3的PMU(性能监视单元)功能
  12. 1.4.支持CTI多处理器调试
  13. 1.5.可选加密引擎
  14. 1.6.可选CPU中断控制器接口
  15. 1.7.支持多个电源域的管理
  16. 低功耗高性能显卡:英特尔第三代酷睿处理器高性能低功耗

今年4月上的《全新架构来袭—ARM Cortex-A72初探》一文中,在信息量有限的前提下,我们对Cortex-A72架构的性能和功耗情况做出了初步的介绍.不过其中有一些内容属于估计和分析,或许你觉得还不过瘾?别着急,日前ARM终于在论文范文上详细公布了有关Cortex-A72的架构设计和性能提升情况.这一次,我们就来一起看看有关Cortex-A72相比之前的Cortex-A57,究竟强在哪里,功耗为何会得到有效控制?

文/图 张山

更清晰的说明—3.5倍是这么来的

这次Cortex- A72的详细信息是在英国伦敦ARM召开的技术大会上被公布的.首先来看名称:Cortex- A72的“A7X”是全新的定义,因为ARM认为如果用“Cortex- A59”会看起来过于相似,不利于消费者区分,因此干脆另外起一个新序列.

接下来ARM解释了之前3.5倍性能的来源.因为之前的幻灯片展示中只有制程和架构等内容,包括频率等都不存在.这次ARM标注得更加详细,以2014年推出的28nm工艺下1.6GHz频率的C o r tex- A15的性能为1的话,那么2 015年2 0 nm、2.0GHz频率的Cortex- A57性能就可达到1.9,随后采用14nm或者16nm、2.3GHz频率的Cortex- A57继续提升至2.6.最后则是同样采用14nm或者16nm,频率进一步提升至2.5GHz的Cortex-A72,性能可以达到3.5.这样计算下来,以频率为单位的话,Cortex-A72的性能参考值就是1.4每GHz,而Cortex-A57则是1.13每GHz,Cortex-A72相比Cortex-A57同频率性能大概上升了25%左右.

接下来功耗下降最多75%的谜题也揭开了.Cortex-A72相比Cortex-A15,在同为28nm工艺、Cortex-A15运行在1.6GHz、Cortex- A72运行在1.1GHz(ARM认为这个条件下两者性能相当)的情况下,Cortex-A72的功耗只有Cortex-A15的一半,也就是降低了50%.如果采用新的16nm FinFET工艺的话,则降低至Cortex-A15的25%.从这一点来看,Cortex-A72的功耗节省是相当明显的.

另外,ARM还宣称Cor tex- A72在频率控制上也有了进步.之前Cor tex- A57由于功耗较高导致发热巨大,处理器只能在最高频率上运行很短的时间,这一点在Cor tex- A72上有了比较明显的改善.Cortex- A72每个核心在16nm FinFET工艺、2.5GHz频率下持续功耗仅为750mW,这样算下来即使四个核心同时工作,功耗也仅仅大约在3W左右,加上周边部件和GPU,高性能Cortex- A72处理器的整体功耗控制在5W以内还是很有希望的.

在性能展示的末尾,A R M 带来了C o r t e x - A 7 2 相比Cortex-A57在同频率下、同系统、同样的内存等条件下通过使用SPEC、GeekBench、Antutu、Minebenche、AES/SHA/CRC等测试得到了的结果总成.其中Cortex- A72在分析性能、论文范文性能、内存性能上分别是Cortex- A57的1.16、1.38、1.50倍,在大家最为关注的浮点性能和整数性能上则胜出Cor tex- A15约26%和16%.如果考虑所有测试的权重都是1,再平均来看的话,Cortex-A72大约同频率胜出Cortex-A57为29.2%,这也和之前的估计基本相当.

Cortex-A57全面升级而来—Cortex-A72的架构改变

性能说的差不多了,那么这样的进步是如何得来的呢?ARM也公布了一些Cortex-A72架构改进方面的内容,不妨一起来看看.

ARM论文范文对Cortex-A72的功能有比较详尽的总结,其中包含了17个不同的项目:

1.全面基于ARMv8-A架构研发

2.超标量体系结构,采用变长和无序管道设计

3.拥有分支目标缓冲器的动态分支预测以及全局历史缓冲RAM,支持返回堆栈和间接预测

4.48通道的全关联L1指令TLB,原生支持4KB、64GB以及1MB的页面大小.

5.32通道的全关联L1数据TLB,原生支持4KB、64GB以及1MB的页面大小.

6.四路集成相关1024通道的L2缓存(每核心).

7.固定48KB L1指令缓存和32KB L1数据缓存

8.共享的L2缓存,可配置512KB、1MB、2MB、4MB等不同的大小.

9.L1和L2均可选ECC功能,其中L1可选仅限于数据缓存,采用奇偶校验.

1.0.支持AMBA 4 AXI扩展界面

1.1.可选ACP加速器

1.2.基于ETMv4的ETM

1.3.支持基于PMUv3的PMU(性能监视单元)功能

1.4.支持CTI多处理器调试

1.5.可选加密引擎

1.6.可选CPU中断控制器接口

1.7.支持多个电源域的管理

从上述17个功能可以看出,Cor tex- A72本身功能丰富,规格强大.虽然部分功能是从Cor tex- A57上继承而来,但是Cortex-A72还是作出了更深入的改进和更新.ARM宣称自己对Cortex- A72的性能、功能和面积都做出了极为有益的改善.因此,相比之前的Cortex-A57, Cortex-A72几乎是一个全新的设计,每个逻辑块都重新制作.其中最引人注目的是全新的分支预测单元和改进的译码器管道,以及全新的指令分派和回收单元,其它特别值得关注的还有浮点和整数单元,以及L2缓存等.

首先来看Cortex-A72分支预测上的改进.Cortex-A72采用了一个全新的分支预测单元和新的、更复杂的分支预测算法,全新的设计可以提高性能并大幅度降低由于分支预测错误带来的性能损失,相比Cortex-A57,Cortex-A72的错误预测降低了50%,投机行为发生的概率降低了25%.此外,多余的分支预测访问也被有效降低了,在一些不能很好地分支预测的工作中,这个部分被干脆绕过.另外值得一提的是,ARM还通过整合了ARM组织,来降低物理IP的功耗.分支预测的改进能够显著提升处理器运行的效率,降低无谓的能源浪费,也可以在很大程度上起到提升性能功耗比的作用.

接下来则是解码和重命名部分.目前Cortex- A72使用的依旧是论文范文*,这个部分的改进主要包含增加*的有效带宽,全新加入了对高性能高级SIMD/FP单元,增加对AArch64指令融合的增强,对FP rounding- mode指令的加速,以及全面优化整个*的功耗方案,尤其是对缓冲区调用、流量控制以及芯片面积等做出了多方面的优化.

在随后的指令分派和回收单元上,Cortex- A72的改进可谓极为明显.首先是指令分派单元宽度从之前3- wide增加至5- wide(也就是传说中的“五发射”),增加的宽度有助于减少吞吐次数,提高每次指令吞吐量,尤其是配合之前的解码部分的优化,更多的指令可以被指令分派单元一次处理并发送给相关单元,提升了每周期内调度器执行效率.在之前的Cortex- A57上,ARM发现性能瓶颈存在于指令分派单元,因此在Cortex- A72上加强了这个部分.现在,ARM表示Cortex- A72微架构下平均每个指令有1.08个微操作.在其他增强方面,Cortex-A72进一步改良了端口分享,这样可以降低寄存器文件通过共享端口执行读端口的次数,降低了多余的寄存器文件访问.最重要的还有功耗优化,Cortex- A72的这部分架构和寄存器结构都经过了重新优化,降低了面积和冗余部分,提高了能耗比.这部分改进主要是增强了处理器内部“任务分派”能力,不再出现任务分派性能不足导致计算部分空等的局面出现,这也是Cortex-A72针对内部平衡的一个重要改进,它也能从侧面提高处理器的效率,缩短完成时间并带来能耗比的提升.

在执行单元,也就是整数、浮点和高级SIMD单元方面,Cortex- A72的改进也相当令人惊喜.首先,Cortex- A72启用了论文范文的浮点和高级SIMD单元,FP流水线长度从9降低到了6(最大流水线长度从Cortex- A57的19降低至目前的16,更短的流水线有助于提高每周期效率).Cortex- A72的新单元相比Cortex-A57的优势包括:FMUL单元执行周期降低40%只需要3周期即可完成;FADD单元执行周期降低25%至3周期,FMAC单元执行周期只需要6个周期降低了33%,CVT则降低了50%目前只需要2个周期,此外还有Radix-16浮点、整数的除法器带宽都增加了一倍.其次,Cortex-A72的issue- queue的负载平衡算法经过了调整,更符合实际需求.第三,CRC单元的延迟降低至只需要一个周期,同时带宽相比Cortex-A57增加了两倍.最后,依旧采用了大量的功耗和能源优化.总的来看,Cortex-A72的计算部分进步非常大,全面启用的论文范文单元不但大幅度提升了计算效能还在很大程度上降低了计算所需周期并提高能耗比.

最后来看有关缓存单元的改进.这部分也是Cortex- A72改进的重点,ARM宣称其带宽提升了30%,这将有效地改善存储部分的效能情况.具体的内容包括:为L1和L2缓存引入了新的复杂预取功能、更新了L2的缓存替换方案、降低了L2 TLB部分的延迟、增强了可配置性等.其他在功耗方面的改进更是数不胜数,包括降低L1命中和转发时的功耗,优化了整个RAM组织的功耗表现情况、L2队列的功耗表现、L2在待机状态下的功耗方案等.

低功耗高性能显卡:英特尔第三代酷睿处理器高性能低功耗

上述所有的功耗改进最终汇总在一起,实现了Cortex- A72相对于前代处理器在能耗比上显著的进步.A R M 宣称Cor tex- A72的单线程性能得到了极大的增强,无论是整数、浮点、内存性能等都有显著改善.在功耗方面也有了长足进步,在上一篇文章中初步的实际测试数据表明Cor tex- A72相比Cortex- A57动态功耗降低了17%,在进一步优化的情况下相信还会更多.

剑指英特尔—Cortex-A72性能大比拼

ARM目前在移动计算领域已经是巨头了,但显然ARM的野心不止于此,前方还有利润更为肥厚的服务器领域,如果进入这个行业,ARM想必能得到更大的发展.不过在服务器行业英特尔盘踞已久,ARM多次进入都“雷声大,雨点小”.在Cortex- A72上,ARM再次直面挑战英特尔,并给出了一些对比数据.

首先来看Cortex-A72和Core M的对比.对比的双方分别是Dell Venue Pro Ⅱ,这款电脑采用的是英特尔Core M 5Y10C处理器,最高频率2GHz,双核心四线程;另一台机器采用了四核心Cortex-A72处理器,频率为2.5GHz,16nm工艺制造,L2缓存为2MB.此外,ARM还在测试下方非常用心地标示在多线程测试时,Core M处理器由于达到了功耗上限频率无法提升.测试的工具是SPEC Benchmarks,编译器都为Gcc compiler v4.9 witho3配置.整体测试看起来还是相当公平的.

测试结果显示,单核心性能方面,ARM赢了GeekBenchST,输掉了SPEC整数和SPEC浮点,内存性能除了STREAMCopy略输外其他都胜利了,多线程性能更是大获全胜.ARM之前也表示这个情况下英特尔处理器频率无法提升,算是比较公道.不过ARM在GeekBench ST上标明了功耗,自家产品低于1W,英特尔的在4W左右.考虑到GeekBench ST是个单核心、单线程的测试,这样的结果倒不意外,不过为什么ARM不干脆一口气将所有的测试—尤其是多线程测试也标注功耗呢?这方面ARM胜出得可不少.

另外,ARM还对比了自家产品和英特尔至强系列处理器的性能.ARM拉来的竞争对手分别Xeon- E5 2650 V3和Xeon- E52660 V3,自家的产品则是20核心的Cortex- A72和20核心的Cortex- A57(L2和L3缓存共28MB),测试平台和上个测试基本相当.测试对象是Spec2K6 Rate,性能表示方法是相对值.ARM的测试数据表明自己的20核心Cortex- A72的性能比10核心、20线程的Xeon- E5 2650 V3要高出25%左右,只是略低于Xeon- E5 2660 V3,就连20核心的Cortex-A57也能和Xeon- E52650 V3战个基本相当.尤其是ARM还宣称自家的Cortex-A72和Cortex-A57的20核心处理器的功耗都低于30W,英特尔的则全部都是105W,整体看起来强得略微让人“吃惊”,不过考虑到这个是特定条件下的估值,也就见怪不怪了.

未来之星—Cortex-A72大有可为

Cortex- A57的高功耗表现实在不尽如人意,因此ARM在Cortex-A72上终于开始同时重视性能和功耗.从ARM论文范文的描述来看,Cortex-A72虽然基于Cortex-A57,但是几乎所有的部件都被重新优化制作,最终呈现出来的性能和功耗情况也非常令人满意.无独有偶,厂商对Cortex-A72可谓非常热情,产品发布不久,就有诸如联发科、高通等厂商宣布将使用这款全新的架构打造旗下产品,使其尽可能早的上市和消费者见面.从目前的情况估计,最快第三季度,有关Cortex-A72的芯片就可以设计完成准备上市,使用到手机上应该最快在今年年底,慢的话则在2016年第一季度.Cortex- A72作为ARM精心打造的全新架构,极有可能像Cortex-A9那样成为一代经典,并且还可以凭借强劲的性能在服务器平台一展风采,未来可谓是大有可为.

总结:这是一篇与功耗性能论文范文相关的免费优秀学术论文范文资料,为你的论文写作提供参考。

低功耗高性能显卡引用文献:

[1] soc和低功耗蓝牙学术论文怎么写 soc和低功耗蓝牙类有关在职毕业论文范文5000字
[2] 华硕和显卡开题报告范文 关于华硕和显卡论文范文集10000字
[3] 机箱和显卡硕士学位论文范文 关于机箱和显卡类自考开题报告范文2万字
《全面革新ARMCortex-A72架构深度》word下载【免费】
低功耗高性能显卡相关论文范文资料