英特尔万亿次处理器关键技术解析

  • 时间:
  • 浏览:1
  • 来源:1.5分赛车娱乐平台-1.5分赛车下注平台_1.5分赛车注册平台





作者: CNET科技资讯网

CNETNews.com.cn

10007-03-19 09:06:45

关键词: 英特尔 万亿次 正确处理器 CPU

英特尔每年年初不是向业界汇报其重要技术研发进展的习惯,在2月中旬于旧金山召开的“10007年国际固态电路研讨会(简称ISSCC 10007)”上,它就展示了全球首款具备每秒万亿次浮点运算性能的可编程正确处理器(下文简称“万亿级正确处理器”)研究用原型产品,并声称要在未来5-10年内完成你类式 正确处理器的产品化,将其推广到服务器、PC和手持设备中,让用户在哪些产品上获得万亿级计算、即每秒正确处理万亿字节数据的应用体验。

对于业界来说,英特尔宣告的上述信息绝对算得上是一颗重磅炸弹,其威力主要来源于两方面:首先是它要在单颗正确处理器上实现目前就是 颗顶级服务器正确处理器“合力”后能 达到的性能。据了解,全球第另一有一兩个 触到万亿次浮点运算性能标竿的,就是我英特尔1996年为美国Sandia国家实验室开发的ASCI Red超级计算机,可该系统足足配备了近1万颗奔腾Pro正确处理器。即使是今天在IA服务器正确处理器市场上傲视群雄的双核安腾,在四路的配置下就是我后能 实现约每秒41000亿次的浮点运算能力。相比之下,单颗正确处理器即可支持万亿次浮点计算能力的意义已无庸赘言。

其次,也是最让业界感到震撼的,即英特尔之就是 打算将你类式 万亿级正确处理器的用途局限于高性能或企业计算领域,都要把它打入被委托人消费级计算产品,换言之,英特尔就是我要让万亿级计算你类式 “今”日王谢堂前燕,尽快飞入寻常百姓家。

不过,与以往的技术下移相比,万亿级计算走向平民化的“落差”着实 不要 ,就不用类式 构不用在未来5-10年内实现,看起来就更像是一次豪赌,若非英特尔追到了性能达标的万亿级正确处理器原型产品,我们歌词 歌词 恐怕还比较慢预测它能有多大胜算。

英特尔万亿级正确处理器原型揭秘

谈到英特尔万亿级正确处理器原型产品,着实 它还有另一有一兩个 更加形象和为我们歌词 歌词 熟悉的名称——英特尔1000核正确处理器,它最显著的底部形态就是我在面积为275平方毫米、尺寸仅比拇指指甲盖略大的硅片(Die)上通过“瓷砖片”平辅设计、以8×10的布局集成了1000个删剪相同的简单内核(英特尔称哪些内核为Tile,即瓷砖片)。

据了解,哪些内核的单位面积为3平方毫米,主要由另一有一兩个 单周期单精度可编程浮点引擎、寄存器组、3KB指令缓存、2KB数据缓存及拥有3个39位端口的路由器组成。为了比较复杂设计,英特尔比较慢在哪些内核上采用X86架构,就是我挑选了与安腾EPIC架构类式的96位VLIW(超长指令字)架构。

除在指令架构上与英特尔现有正确处理器不同外,这款原型产品的晶体管集成密度也出乎我们歌词 歌词 的意料。目前基于65纳米制程的酷睿2双核正确处理器在143平方毫米的硅片上集成了2.91亿晶体管,相比之下,采用同一制程生产出来的万亿级正确处理器原型产品硅片面积着实 大了近一倍,但集成的晶体管数量却不后能 约1亿个。造成你类式 结果的因为有二:一是这款原型产品就是我另一有一兩个 用于实验室研究的样品,内核较为简单,比较慢像酷睿2一样配备大容量的缓存;二是它把不少硅片面积留给了内核与内核之间的数据连线。

着实 在晶体管密度指标上比较慢抢眼表现,但这并未影响英特尔万亿级正确处理器原型产品冲刺性能和能效高峰——它在工作电压为0.95V时,时钟频率可达3.16GHz,浮点运算性能高端每秒1.01万亿次,功耗却为62瓦,每瓦浮点性能约合11000亿次。

英特尔:“1000核”并无实际意义

尽管英特尔的万亿级正确处理器原型产品向业界展示了惊人的性能,但就是 媒体和消费者似乎对它集成的内核数量更感兴趣。毕竟,与目前PC正确处理器只集成两或3个内核的水平相比,“1000核”对我们歌词 歌词 来说颇具吸引力。

不过,英特尔却认为“1000核”你类式 数值没哪些实际意义。它展示的这款万亿级正确处理器原型产品就是我供被委托人研究使用,之就是 会实现产品化。这是可能性其内核之就是 基于X86架构,就是也只配备了浮点引擎,不具备通用正确处理器兼顾整数和浮点运算的能力,对用户来说并无实用价值。

“我们歌词 歌词 未来真正推向市场的万亿级正确处理器集成的内核数量之就是 一定是1000个,很可能性会远低于你类式 数字”,英特尔中国研究中心总经理杜江凌博士于今年2月底在京举办的英特尔万亿级计算研究项目沟通会上向记者透露:“它不用采用仅针对浮点运算进行加速的内核,它可能性会由就是 性能更高的通用X86内核以及可对高清晰度视频编/解码、安全加密、数字信号正确处理、3D图形纹理正确处理等任务和应用进行硬件加速的可编程固定功能单元组成,以保证在实现每秒万亿次浮点运算性能的一并,对上述特定任务和应用进行优化。”

或许另一本人会问,既然现有的万亿级正确处理器原型产品与未来用户真正可购买和用到的万亿级正确处理器有比较慢多不同之处,那为哪些英特尔都要设计制创造创造发明 它,并向业界大张旗鼓地展示呢?对此,杜江凌博士表示:英特尔抛出这款原型产品的真正目的,是要向我们歌词 歌词 介绍它所采用的、未来也将用于产品化万亿级正确处理器的片上网络、“瓷砖片”平辅设计、精细粒度能源管理等关键性创新技术和设计理念。

片上网络助推万亿位数据传输

英特尔在万亿级正确处理器原型产品上导入的片上网络,实际上是五种网状网络,它可将所有内核以网格状联网,为内核组织组织结构和内核之间提供超高下行时延 的通信。而它的设计目标,就是我要在万亿级正确处理器组织组织结构以每秒万亿位的下行时延 来传输数据,以确保其性上都后能 充分释放。

你类式 片上网络主要由内核中的路由器和内核之间的数据线路组成,如前文所述,英特尔万亿级正确处理器原型产品上每个内核的路由器不是3个端口,其中另一有一兩个 端口引出的数据线路主要用来与附近3个内核进行数据传输和交换,还有另一有一兩个 端口则是用来连接3D堆栈存储器。当这款原型产品运行在4GHz时,单个内核的路由器数据吞吐量就可达到1000GB/s,延迟就是我后能 1.25纳秒。而在3.16GHz的时钟频率下,整个原型产品的总下行时延 、即每秒钟内在最小的对剖平面上通过所有连线的最大数据位数可达到1.62万亿位。

着实 原型产品的片上网络已获得不俗的性能表现,但预计英特尔在发布正式的万亿级正确处理器前,还将进一步对它进行改良。

英特尔的“瓷砖片”平辅设计与片上网络技术是紧密相关的,它后能 把内核像“瓷砖片”一样重复平辅开来,从而缩短正确处理器的设计周期,降低其设计难度。着实 你类式 技术的优势在设计集成多个相同核心的正确处理器时表现得最为明显,但在未来英特尔设计由多种在尺寸、功能或底部形态上均不相同的内核组成的万亿级正确处理器时,它也一样能发挥重要作用。

精细粒度能源管理节能有高招

精细粒度能源管理是决定英特尔万亿级正确处理器原型产品能效表现的重要因素。根据应用对性能的需求,它不但能让任意内核地处休眠或激活情况报告,还可让每个内核上的浮点引擎、指令/数据缓存、路由器等2另一有一兩个 可休眠区域独立休眠或激活。当然,为了保证片上网络的高效运作,所有内核的路由器通常回会 保持开启情况报告。

精细粒度能源管理的成功实现,应归功于休眠晶体管。你类式 晶体管在英特尔现有的酷睿2等多款正确处理器上已得到广泛应用。在万亿级正确处理器原型产品上,每个内核计算单元(包括浮点引擎、指令/数据缓存、寄存器组等)使用的晶体管带有74%不是休眠晶体管。

除休眠晶体管外,英特尔还在万亿级正确处理器原型产品上应用了新式模组时钟方案。目前市场上的正确处理器产品多使用全局时钟方案,该方案在正确处理器组织组织结构时钟信号派送上消耗的功耗可占正确处理器整体功耗的1000%左右,相比之下,采用模组时钟方案的英特尔万亿级器原型产品工作在4GHz时,用于时钟信号发送的功耗为2.2W,在整体功耗中所占比例仅为1.2%。

与就是 正确处理器一样,英特尔这款原型产品还能通过调低工作电压和时钟频率来节能,在电压降至0.6V时,它的时钟频率为1GHz,功耗为11W,每秒浮点运算能力依然能达到31000亿次。

实现万亿级计算不后能 只靠正确处理器

就像只安装了宝马发动机的拖拉机无法给使用者带来与宝马车相同的驾驶体验一样,真正的万亿级计算平台,就是我能仅仅配备一颗万亿级正确处理器,它还得在所有组件之间(如在正确处理器和内存间)构建支持每秒万亿位数据传输能力的系统总线,并具备高速大容量的存储能力以及确保有出色的应用和工作负载都后能 让它的性能得到最大化的利用。

有鉴于此,英特尔对万亿级计算的研究并比较慢局限于正确处理器,就是我由涉及正确处理器、平台、编程三大领域的1000多个研究项目组成。目前我们歌词 歌词 已知的项目就包括了针对正确处理器的可升级内存、多核架构、固定功能单元;属于平台范畴的3D存储器、缓存等级、虚拟化/分区;与编程相关的前瞻多应用应用程序、负载分析、事务内存、编辑器和应用应用程序库等。据杜江凌博士透露,英特尔中国研究中心正在参与就是 编程和平台领域关键项目的研发工作。

杜江凌博士还表示,在发布1000核的万亿级正确处理器原型产品后,英特尔接下来就将在你类式 正确处理器上应用3D堆栈存储器,并尝试用基于英特尔架构的通用内核来开发更加智能的原型产品。所谓3D堆栈存储器,就是我在正确处理器封装中的正确处理器硅片下方堆叠多层DRAM或闪存芯片,让它们为万亿级正确处理器提供更多等级和更大容量的缓存,在不占用正确处理器硅片宝贵面积的一并,有效隐藏正确处理器与内存之间的数据延迟。面对万亿级正确处理器与内存、芯片组及就是 平台组件之间的高速通信需求,英特尔则计划以基于硅光子技术、数据传输下行时延 有望超越40Gb/s的光纤线路作为系统总线,将它们连接起来。

尽管有了明确、细化的研究项目,在关键技术的积累和推进上也获得了一定成绩,但在实现万亿级计算平民化构想的道路上,英特尔还有就是 难关都要攻克,它也将为此付出巨大的人力和财力。不过,可能性它真能按时兑现你类式 承诺,比较慢,像人工智能、即时视频通信、高逼真游戏、多媒体数据挖掘及实时语音识别哪些如今不后能 在高端计算机上运行或在科幻小说中看得人的应用,不是可能性走入普通大众的日常生活,预计届时英特尔由此获得的收益,也将远远高于它在今后数年内对万亿级计算的投入。(作者:象兵)