0 弁言
随着多核打算技能、向量打算技能、GPU打算技能的发展运用,在单位空间可集成更高的打算能力。因而,传统嵌入式打算架构的嵌入式打算机系统结合高性能打算技能,能较大地提高系统性能并扩展运用范围。
前辈电信打算架构[1](Advanced Telecom Computing Architecture,ATCA)是针对CPCI、VME等传统嵌入式[2-3]打算架构在扩展能力、可靠性以及兼容性等方面存在的问题,由PICMG组织制订的最新一代嵌入式打算架构标准。

打算规模在万亿次的低端个人高性能打算机[4](Personal High Performance Computer,PHPC)的紧张目标是逐渐把万亿次高性能打算带到“个人”和“桌面”,实现高性能打算的遍及化。KD系列PHPC[5]在研制过程中逐步办理了PHPC小型化问题,实现了“三低一高”。终极实现的KD-90系统[6]是一款微波炉大小的、可移动的个人高性能打算机。
本文运用KD系列PHPC的研究成果,结合ATCA嵌入式打算架构,采取龙芯3号处理器[7-8],设计了一款符合ATCA技能规范的嵌入式打算平台。对系统核心部件龙芯做事器刀片设计的关键技能进行了重点阐述,并对刀片的性能进行了测试。测试结果表明,所设计的做事器刀片性能良好。
1 系统设计
1.1 嵌入式打算平台简介
本嵌入式打算平台机器构造遵照ATCA规范进行了定制设计,考虑电源供电在背板的均衡以及模块散热的需求,将3个“1+1+1”冗余的电源模块单元设置在全体机箱的右侧;机箱中部5U高度的空间紧张设置8片龙芯做事器打算刀片(做事单元#1→#8)、2个交流和管理单元以及2个KVM单元。
系统的核心部分为8片龙芯做事器刀片,采取龙芯3号处理器进行设计。
1.2 龙芯ATCA做事器刀片设计方案
做事器刀片设计采取了基于双路龙芯3A处理器CC-NUMA(非同等性存储通道)架构的做事器方案,搭配AMD的RS780E+SB710套片组。通过Intel82576设计输出4路千兆网络旗子暗记,通过背板采取Serdes旗子暗记传输模式实现与交流模块的互联;输出的8路USB、2路VGA和4路千兆以太网旗子暗记通过ATCA Zone2连接器与背板连接,其设计框图如图1所示。
做事器刀片紧张特点:
(1)系统采取800 MHz、16 bit的HT[7](Hyper Transport Link)总线与I/O桥片互联,系统总带宽达25.6 Gb/s;
(2)系统总线数据传输支持采取CRC数据校验机制,具备传输失落效后自动重试功能;
(3)独立的IPMC监控电路可以通过网络远程监控设备事情状态并进行掌握;
(4)做事器刀片通过PCIe总线连接高性能以太网驱动器Intel82576网卡。
2 高可靠设计技能
2.1 系统级冗余技能
结合ATCA架构支持的冗余技能,系统进一步采取了全面的冗余体系来支持做事器刀片的高可靠运行。如图1所示,交流刀片、KVM刀片、电源模块、风扇、机箱管理等都采取了冗余设计,采取1+1冗余模式确保无单点故障。
同时,龙芯做事器刀片设计供应4路千兆以太网通道,分成两组,分别连至两个交流刀片,形成2+2的冗余模式,如图2所示。
2.2 远程管理监控技能
系统采取远程管理监控技能对做事器刀片运行的所有状态进行监控,包括:故障预警/告警、机箱环境温度监控、刀片电压/电流监控、功能单元的存在性/康健性监控等。
外部机箱管理为远程管理软件,远程用户可通过网络向机箱管理单元发送命令要求,由机箱管理单元将命令翻译并发送到相应的节点单元的IPMC,实现对各节点单元管理和掌握。
2.3 散热打算与热仿真技能
根据做事器单元的功耗以及空气散热技能实践的最高上限推算,每个槽位做事器刀片的最大功耗该当在100 W以内,根据功耗与空气流利速率对应的关系,对应的空气流利速率为0.51 m/min。
根据打算所得干系参数,机箱和刀片的机器尺寸位置,在所有刀片满载持续事情30 min情形下,对整机散热进行了瞬态仿真剖析,结果如图3所示。由图3可知,在环境温度45 ℃,相对湿度75%情形下,全体机箱的散热良好。
3 系统测试
3.1 健壮性测试
首先为拷机测试,测试期间系统运行Linpack测试以及Spec cpu2000等大型测试软件至满负荷,实测72小时内运行无端障。其次为IO访问压力测试,测试整机在100 MB、500 MB以及1 GB文件拷贝、创建、压缩、解压、FTP传输时的健壮性,实际测试系统利用脚本完成相应任务操作连续48小时正常无端障。末了测试系统在多用户并发访问特定运用时的稳定性,利用Loadrunner仿照进行100~1 000个用户测试,48小时内访问正常。
3.2 性能测试
对单个龙芯做事器刀片的测试结果拜会表1打算子系统根本性能测试结果。测试处理器为龙芯3A,事情主频为825 MHz,单处理器内存为DDR3 8 GB,事情频率为533 MHz。
3.3 功耗测试
在系统满载情形下,对系统总功耗和单个做事器的刀片进行了功耗测试,结果如表2所示。
4 结论
剖析打算子系统的整型和浮点性能的测试数据,由于事情主频的差异,龙芯3A处理器与主流的x86处理器性能比较差距较大,处理器单核性能只是相称于同主频的PIII处理器,内存的读写性能也相对偏低。
而对付打算型运用,嵌入式打算平台的上风在于在较小的空间范围内实现了一个由16个处理器,共计64个处理器核组建的SMP集群,通过高密度集成获取较高的打算能力。当系统配置龙芯3B 处理器时,可得到靠近2 T的峰值打算能力。
参考文献
[1] 王江.ATCA架构中多网口后板的高效设计[J].电子技能运用,2013,39(1):391-396.
[2] 罗云,陆安江,张正华.基于嵌入式系统的RFID中间件设计[J].电子技能运用,2013,39(1):280-285.
[3] 蔡路亭,徐金甫,丁琦,等.基于地址加扰的嵌入式系统安全防护研究[J].电子技能运用,2014,40(7):191-196.
[4] 孙凝晖,陈国良.PHPC:一种遍及型高性能打算机[J].中国科学技能大学学报,2008,38(7):745-752.
[5] 张俊霞,李春生,张焕杰.KD-50-I-E:一台增强型高性能打算机[J].中国科学技能大学学报,2009,39(8):894-896.
[6] 蔡晔,刘刚,毛睿,等.KD-90遍及型个人高性能打算机系统设计与性能优化[J].深圳大学学报(理工版),2013,30(2):138-143.
[7] Hu Weiwu, Wang Jian, Gao Xiang, et al. Godson-3: a scalable multicore RISC processor with x86 emulation [J]. IEEE Micro, 2009,29(2):17-29.
[8] 张俊霞,张焕杰,李会民.基于龙芯2F的国产万亿次高性能打算机KD-50-I的研制[J].中国科学技能大学学报,2008,38(1):105-108.