php实现RDMA技巧_超算简史与下一代超级计算机

文章目录 [+]

上图为超算界2012年天下冠军“泰坦”（Titan），它有一万多个兄弟，每个兄弟都是当时最强的CPU，再配上GPU、高速网络等高精哨兵器，运算速率达到20+ PFLOPS。
“泰坦”占地面积与标准篮球场相称，花费的电力足以供应一个小型城镇；普通电脑放在背包里带走，超级打算机要专门建一栋楼来放置。

“超级打算(Supercomputing)”这一名词在1929年《纽约天下报》关于“IBM为哥伦比亚大学建造大型报表机(tabulator)的宣布”中首次涌现。
超级打算机是一种由数百、数千乃至更多的处理器(机)组成的，能打算普通PC机和做事器不能完成的大型、繁芜课题的打算机。

php实现RDMA技巧_超算简史与下一代超级计算机

超级打算机是打算机中功能最强、运算速率最快、存储容量最大的一类打算机；多用于国家高科技领域和尖端技能研究，对国家安全，经济和社会发展具有举足轻重的意义；也是国家科技发展水平和综合国力的主要标志。

（图片来自网络侵删）

超算简史

1960年代前

60年代及之前，可以算作是超级打算机的蛮荒时期，有IBM、DEC、GE等浩瀚玩家。

个中IBM的各种牛，各种创始，不一一细表。
我认为对广大程序员影响最大的还是FORTRAN的发明，它是影响了打算机历史，影响了编程措辞的发展，并且如今仍在科学打算领域仍旧被广泛利用。
刚毕业时，我还在物探局编写、优化了大量FORTRAN模块。

还有一个不得不提的是CDC (Control Data Corporation)公司，它不仅有非常产品精良（如上图的CDC 6600）；而且其拥友一位精彩工程师Seymour Cray。
Seymour Cray在CDC事情多年并设计了一系列当时最快的打算机，直到他离开后创立了自己的公司，首创了超级打算机的一代枭雄──Cray。

1970 - 1980年代

Seymour Cray创立自己的公司──Cray Research。
凭着他的新设计，Cray Research一度主导了当时的全体超级打算机市场。

上图为Seymour Cray和他的Cray-1，Cray-1成功利用向量处理器（vector processor），性能是同期其它产品的几倍。

Cray-2首台4路向量处理器，成为当时峰值最高的超级打算机。

顶峰之后，其后Cray公司连忙下滑；经历了破产、被收购等一系列变故，命运多舛、但仍旧顽强的坚持着；直至今日，Cray依然是超级打算机领域的巨子之一。

向量处理器（vector processor），是一种实现了直接操作一维数组（向量）指令集的中心处理器（CPU）。
向量处理器可以在特定事情环境中极大地提升性能，尤其是在数值仿照或者相似领域。
向量处理器最早涌现于20世纪70年代早期，并在70年代到90年代期间成为超级打算机设计的主导方向，尤其是在多个Cray平台。
现在，绝大多数商业化的CPU实现都能够供应某种形式的向量处理的指令，用来处理多个（向量化的）数据集，也便是所谓的SIMD（单一指令、多重数据）；如常见的 SSE, MMX和 AVX等。

1990年代

90年代，是MPP(Massive Parallel Processing)大爆发的时期，处理器个数由原来的个位数爆炸增长到几千个。

MPP属于IT巨子的定制机，每个节点利用定制CPU，运行OS微内核，利用单独开拓的专有网络连接。
具有代表性产品有：Intel ASCI Red，IBM SP2，Cray/SGI Origin 2000。

MPP架构与现在的集群（Cluster）已经非常相似了，最大的差异点是其组件大多是单独定制开拓。
MPP架构主导超算领域，同时催生了其余一项沿用至今的技能 -- 通报接口（Message Passing Interface，缩写MPI）。
MPI是一个并行打算的运用程序接口（API），常用于MPP、集群系统等分布式内存环境程序设计。
MPI的特点是高性能，大规模性和可移植性；直至本日仍为高性能打算的最紧张模型。
之前，本人环绕这个打算机领域的90后，前后事情了N年。

走进新世纪

进入新世纪后，集群（Cluster）得到发达的发展。
集群的节点是一台完全的商业做事器，运行通用操作系统（感谢Linux，感谢GNU！
），互连网络利用商业标准的IB和以太网设备连接，存储为SAN、NAS和并行文件系统。

原有的MPP超级打算机的单独定制门槛被冲破，“堆机器”成了新玩法。
海内厂家在这一期间开始崭露锋芒，如遐想的深腾系统、曙光公司的曙光5000A等等。

之后，国防科技大学异军突起；其设计的“天河一号”是我国首台千万亿次超级打算机。

“天河一号”从2008年开始研制，按两期工程履行：

一期系统（TH-1）：于2009年9月研制成功；装有3072颗Intel的Xeon E5540 2.53GHz四核处理器和3072颗Xeon E5450 3.0GHz四核处理器，共有24,576个处理器核心。
天河一号还装备2560块AMD的Radeon HD 4870 X2显示卡，共有5,120个图形处理器用于图形处理器通用编程。
该超级打算机系统支配于，设立在天津滨海新区的国家超级打算天津中央作为业务主机。

二期系统（TH-1A）：于2010年8月在国家超级打算天津中央升级完成；配备了14,336颗Xeon X5670处理器、7,168块基于NVIDIA的Tesla M2050打算卡、2,048颗国防科技大学研制的飞腾处理器以及5PB存储设备。
升级后的TH-1A比TH-1理论峰值性能提高了3.89倍，实测性能提高了4.45倍。
2010年11月14日，国际TOP500组织在网站上公布了最新环球超级打算机前500强排行榜，我国首台千万亿次超级打算机系统“天河一号”(TH-1A)排名环球第一。

“天河一号”是我国首台采取异构加速卡架构设计的超级打算机，个中第一期系统（TH-1）利用了Intel CPU + AMD GPU卡，第二期系统（TH-1A），GPU卡改为生态更成熟NVIDIA Tesla M2050。
本人参与并见证了，东方物探石油勘探地震资料处理运用在天河-1A上运行，是当时最早期的、可支持NVIDIA GPU的超大规模并行运用。
鉴于其巨大意义，当时有一篇著名的文章《超级打算机天河一号运用水平进入天下前辈行列》。

继“天河一号”后，由国防科学技能大学研制的超级打算机系统“天河二号”，于2013年6月起至2016年6月之前（六连冠），再次成为天下上最快的超级打算机。

2016年6月20日，由国家并行打算机工程技能研究中央研制、安装在国家超级打算无锡中央的超级打算机“神威·太湖之光”超级打算机，超越同为中国建造的“天河二号”，成为天下上最快的超级打算机。
至此以来，中国长期（2013年6月至今）盘踞TOP500首位，成为了超算领域的迅速崛起的一颗刺目耀眼新星。

超算的武功排行榜

TOP500项目是针对环球已知最强大的电脑系统做出排名与详细先容。
此项目始于1993年，每年出版两次最新的超级打算机排名列表。
每年的第一次排名公布总是在六月份的国际超级打算机会议（ISC）上，而第二次排名公布则是在十一月份的超级打算会议（SC）上。

最近一期（2017年11月）TOP500前十名排名：

个中中国2台（前两名），日本3台，美国4台，欧洲1台。
从榜单可以反响出两个特点：1、中国独占榜单头两位；2、美国第一次丢失了前四位；大名鼎鼎的Titan先后被瑞士的Piz Daint和日本的Gyoukou超越，落到第五的位置。

美国在高性能打算领域具有传统上风，是决不会让这种情形连续（IBM、Intel、Cray也不会，都是拿大单的机会啊）。
为应对日益激烈的竞争压力，在学术大咖、商界领袖的共同游说下，美国能源部首先站里出来；在 2014 年启动的超算操持 CORAL，投入5.25亿美元，要帮助美国在超算领域夺回领头羊地位。

大洋彼岸的应对

CORAL是个什么项目呢？我们看看它的全称就明白了，这是个大块头。

CORAL = Collaboration of Oak Ridge, Argonne, and Lawrence Livermore

Oak Ridge，Argonne 和 Lawrence Livermore，他们代表美国能源部下属的三个国家实验室：橡树岭国家实验室（Oak Ridge National Laboratory，缩写为ORNL），阿贡国家实验室（Argonne National Laboratory，缩写为 ANL）和劳伦斯利佛摩国家实验室（Lawrence Livermore National Laboratory，缩写为 LLNL）。

这三个，该当是大家最熟习的美国国家实验室了。
橡树岭国家实验室和阿贡国家实验室都是源于大名鼎鼎的曼哈顿操持的一部分，之后分离出来成立的最早的大型美国国家实验室。
劳伦斯利佛摩国家实验室（LLNL）名气稍差一点，但提到它的大表哥洛斯阿拉莫斯国家实验室，同为曼哈顿操持的一部分，有名度绝对高。
这哥俩同为美国能源部所属，是美国两个为了X武设计而建立的部门。
江湖传闻LLNL是为了制衡洛斯阿拉莫斯国家实验室一家独大而专门建立。

Collaboration

阐明完后面三个单词“Oak Ridge, Argonne, and Lawrence Livermore”，我们再阐明一下“Collaboration”代表着什么。
Collaboration的详细内容是三个国家实验室共同招标建造四台超级打算机，供各自科研利用。
不差钱的标书发出来后，厂家纷纭相应。
但建超算是技能活，不是谁都干得了的，结果不出意外；打算机巨子组团拿下了订单。

朋友圈一：IBM + NVIDIA + Mellanox，卖力建造两台，条约金额 3.25亿美元。
朋友圈二：Intel + Cray，卖力建造其余两台，条约金额2亿美元。

第一台：Summit

放置在橡树岭国家实验室，替代上文提到、现TOP500排名第五位的Titan超级打算机（Cray造，AMD Opteron + NVIDIA Tesla K20X）；朋友圈一互助，采取：IBM Power9 + NVIDIA GPU + Mellanox IB方案，由IBM建造，操持2018年底交付。

Summit理论峰值150-300 PFLOPS，高于现在第一名的“神威·太湖之光”的125PFLOPS，估量会在18年底重新夺回TOP500第一名的宝座；不过还须要一个条件，“At that point, absent another surprise from China”。

第二台：Sierra

放置在劳伦斯利佛摩国家实验室（LLNL），替代原有的Sequoia超级打算机（IBM Blue Gene Q）；Sierra便是缩小版的Summit，架构、技能完备同等，规模、配置部分缩水，同由IBM建造，操持2018年交付。

第三台与第四台：Theta & Aurora

这两台都放置在阿贡国家实验室，朋友圈二拿下。
Intel为主承包商，Cray卖力集成和建造； Theta采取Intel Xeon Phi KNL + Aries Interconnect，在2016年底已交付，理论峰值9.6 PFLOPS（实测5.88 PFLOPS），最新一期TOP500排名18；Aurora为大号的Theta，同样采取Intel Xeon Phi技能，设计峰值180 PFLOPS；由于Intel取消最近一代Xeon Phi产品，机器无法交付；该项目改为2021年，搭建美国首台E FLOPS(1000 PFLOPS)超级打算机。
由于Intel Xeon Phi在交付上的风险，同时建两台超级打算机的好事，终极没有落到Argonne的身上。

下表为CORAL项目实际建造的3台超级打算机的硬件参数：

朋友圈一：IBM + NVIDIA + Mellanox

Summit & Sierra的体系构造可以看到：CPU + GPU的异构架构已经完备被超算领域认可。

RDMA（Remote Direct Memory Access）以其Zero-copy，bypass-kernel，Network Offload的特性，是超级打算机高速网络的最佳选择之一。
个中最常见的实现有三种：RDMA over Converged Ethernet (RoCE), InfiniBand和 iWARP。
个中InfiniBand在带宽、时延方面高于其他两种办法，在用户定制超算领域霸占率最高。
RoCE是构建在以太网（UPD协议）之上的RDMA实现，拥有更广泛的软硬件根本和本钱上风，在数据中央及云上具有广泛的运用处景。
带宽上，100Gb已经成为行业主流，超算已经向更高速率冲击。
小号的Sierra虽然采取EDR（100 Gb）技能，但利用双网卡技能将最大带宽提升到200 Gb；Summit还没有交付，个人预测直接采取200Gb HDR的可能性更高。

在处理器领域，IBM在与Intel的竞争中落了下风，但其以开放的态度，主动示好业内各领域领先企业，希望在超算、AI领域夺回10-20%的市场份额。
如为了支持NVIDIA GPU，及更好的开源软件生态，Power9成为第一代原生支持小真个IBM处理器。
同时，Power9 做事器中首先运用OpenCAPI，不但支持连接NVIDIA GPU (NVLink)，也支持Google ASIC、Xilinx FPGA。

CAPI（Coherent Accelerator Processor Interface，统一加速器处理器接口）及其演进版本OpenCAPI（开放式高性能总线标准）集齐打算机领域多家巨子：IBM、Google、AMD、NVIDIA、Micron、Mellanox等，以开放的姿态得到了业内广泛的支持。
OpenCAPI 标准总线最大的特点便是性能强劲，每个通道的数据都可达25Gbps，远远超过PCIe 3.0 的8Gbps，而且也支持多通道绑定。

朋友圈二：Intel + Cray

Intel在做事器CPU领域，处于完备领导地位，无论在性能、生态各方面远超对手；但超算领域加速卡方面，面对NVIDIA GPU的强势，Intel推出了Xeon Phi产品，想凭借支持原生x86架构，借力生态上风，再下一城。
最近一期（2017年11月）TOP500排行榜中，采取Intel Xeon Phi的超算统共有29台，战绩中规中矩。
同期NVIDIA GPU为87台；别的300多台为纯CPU无加速卡，还有极个别采取自研加速卡，如“神威·太湖之光”。

随着AI的崛起，GPU加速卡技能得到更快速的发展，Intel虽说取得了一些成绩，但势头上仍被NVIDIA压制，调度取消了最近一代Xeon Phi产品，聚拢力量研制新产品，希望在AI方面取得新的打破。

在高速网络方面，Intel也是握有多张好牌；Intel在以太网领域积累深厚，有著名的82599网卡，同时也是RDMA over TCP （iWARP）技能紧张推动者；2012年，Intel收购QLogic InfiniBand业务，基于这一技能又推出了Omni-Path Architecture（OPA），连续对Mellanox发起寻衅，并已斩获了部分超算客户。
同年，Intel还收购Cray旗下超级打算机互联技能团队，这个团队创造了两项互联技能，分别为Aries和Gemini。

在这个Intel主导的朋友圈里，凭借其超强硬件技能及广泛的业务线，在CPU、加速卡及高速网络全面PK三大打算巨子，实力令人仰慕。

我的思考

我国虽然多次霸占了TOP500的头两位，但不能大略认为超算培植水平已领先其他国家，特殊是美国。
造成这种局势的一个紧张缘故原由是两国在培植超级打算机思路的不同：

美国是根据打算需求设计系统，须要多少打算能力就把超级打算机打算能力设计成多少；如上文提到的CORAL项目，由三大国家实验室主导培植，超算放置地和终极的用户都是各自国家实验室。

中国是通过立项培植，证明我们有能力、有财力培植天下第一的超级打算机也成为了项目的一大目标。
建成后，培植方紧张卖力超算系统的运维，打算资源部分用以支撑国家重大项目，同时也向社会租售打算资源。

在超算培植方面，中国从技能实力上跟欧洲、日本都在一个水平线上，不超前，也不掉队。
美国还是一骑绝尘，特殊在各个关键部件方面、大规模并行运用软件方面。

在并行软件方面，我们的差距远比硬件大，无论是科研领域，还是工业领域。
软件水平的制约，各大超算中央大多存在单个并行作业规模较小，硬件资源闲置率较高。
并且，各个中央均从属于大学、研究院，市场竞争意识淡漠，做事意识不强。
这种现状，也给了重视客户体验、做事质量高的云平台们在超算领域的更多机会。

CPU + GPU + RDMA的架构，在系统效率、可扩展性上展现出较大上风；并伴随着GPU生态完善、AI崛起等有利条件的推动，正在成为企奇迹单位自建超算平台的紧张选择之一。
云上超算平台紧跟趋势，借助阿里云弹性裸金属做事器（神龙）CPU/GPU + RoCE(RDMA over Converged Ethernet)的技能上风，迅速推出超级打算集群（Super Computing Cluster，缩写为SCC）产品（https://www.aliyun.com/product/scc ）、开拓传统超算客户上云业务。

后记

本文先容了超算硬件的简史及新一代的趋势，在软件方面Linux基金开源的超算项目 – OpenHPC位于行业主导地位。
OpenHPC致力于为高性能打算构建一个开源框架，适应现在工业和学术研究的需求，创建一个稳定的 HPC 测试环境，为 HPC 环境创建一个开源框架，降落本钱，开拓一个全能的HPC软件栈适应各种运用，构建一个配置框架，开拓者和用户可以灵巧的选择 HPC 中他们须要的部分。

对应，我们推出了弹性高性能打算（E-HPC，https://www.aliyun.com/product/ehpc ）产品，为客户以快捷的办法在阿里云上搭建超算平台，并完备兼容OpenHPC软件栈；同时，我们还可以为客户供应运用特色剖析工具，供应针对特定运用的云上实例选型推举、性能优化做事。

如对阿里云超算平台感兴趣，欢迎阅读：

阿里云超算揭秘：虚拟机的心脏，物理机的肌肉

黑科技揭秘：如何通过阿里云超算，使得汽车仿真效率提升25%

异构打算与高性能打算，是打开未来的两把钥匙

本文参考链接https://en.wikipedia.org/wiki/Supercomputerhttps://en.wikipedia.org/wiki/Seymour_Crayhttp://www.nscc-tj.gov.cn/claculation.phphttp://www.nscc-gz.cn/https://computation.llnl.gov/partnerships/commencing-work-coralhttps://www.top500.org/news/ornl-begins-construction-of-summit-supercomputer/https://www.olcf.ornl.gov/olcf-resources/compute-systems/summit/https://hpc.llnl.gov/hardware/platforms/sierrahttps://www.alcf.anl.gov/thetahttps://www.top500.org/news/retooled-aurora-supercomputer-will-be-americas-first-exascale-system/http://www.datacenterdynamics.com/content-tracks/servers-storage/aurora-to-become-americas-first-exascale-hpc-system-coming-2021/99035.fullarticlehttp://openhpc.community/

作者：蜚廉