《科技创新与品牌》杂志社创新成果

百万亿次超级高性能计算机曙光5000诞生

1曙光5000落户上海超级计算中心签约发布会

曙光5000机群曙光5000机群


        2008年6月24日,中国高性能计算机的研发迈上了一个新台阶。中国科学院计算技术研究所、中国服务器领先品牌“曙光”和上海超级计算中心在北京联合举行曙光5000落户上海签约仪式。这标志着中国用户即将拥有国产品牌的百万亿次超级计算机,也标志着上海超级计算中心也将成为世界最大的通用计算平台。
        曙光5000高性能计算机是国家863计划高性能计算机及其核心软件重大专项支持的研究项目,是面向网格的高性能计算机。它采用网格技术,体系结构以构件性(Component)、标准性(Standard)、协作性(Coordinate)为基准,采用服务化(Service)、安全化(Security)、专业化(Specialization)、智能化(Intellengce)的3SI技术路线,可以为网格提供计算服务,同时也是面向信息服务的超级服务器,可以提供多目标的系统服务。
        此次落户上海超算的曙光5000超级计算机除了拥有超强计算能力外,还拥有全自主、超高密度、超低功耗以及超广泛应用等众多特点,同时在体积、节能、软件效率和可管理性方面都会有很大幅度的提高,它的性能将会是曙光4000的20倍,体积相当,耗电只增加不到1倍。
        第一,高性能。
        曙光5000超级计算机的浮点运算处理能力可以达到230万亿次(交付用户使用能力200万亿次),Linpack速度预测将达到160万亿次,这个速度将有望让中国高性能计算机再次跻身世界前十位(之前曙光4000以11万亿次的速度曾经跻身世界超级计算机前十位)。
        第二,高效能。
        曙光5000的效率将超过70%,Linpack速度预测将达到160T,这也是曙光5000值得称道的一点,另外计算节点16核SMP,胖节点①达到32核SMP,单CPU核节点内直接内存寻址64GB(刀片②)/128GB(胖节点),同时实现了单节点内的多路并行计算,这些业界领先技术都保证了曙光5000的超高计算效能。而且曙光5000将可以使用WCCS和Linux等多种通用操作系统,这也保证了应用的广泛性,也将成全上海超级计算中心全球最大通用超级计算平台的称号。
        第三,高密度。
        此次交付上海超算中心使用的曙光5000超级计算机采用4路刀片系统和8路胖节点作为计算节点,采用了业界罕见的单机箱40颗CPU 160个核的高密度机箱设计,采用了全内置的基于ConnectX的 DDR Infiniband交换模块以及管理以太网交换模块这些设计,也成就了曙光5000最高密度高性能计算机的称号,从而保证了曙光5000为业界最高密度通用超级计算机的位置,并且为今后中国高性能计算机的研发开拓了新的思路。
        第四,低功耗。
        为了响应“建设节约型社会”的号召,此次交付的曙光5000采用了大量先进技术。由于采用了低功耗的处理器和内存,以及先进的水冷散热系统和刀片架构,可以为用户节省620KW的耗电。而在软件方面采用了曙光自主研发的Grid View管理系统,可以让曙光5000的功耗降低20%以上。最终的结果就是曙光5000这个巨无霸的峰值运算耗电量控制在超低的700KW,而机房内的空调系统不用承担过多的负担。
        第五,全自主。
        中科院计算技术研究所联合曙光公司自主设计了包括主板、体系结构、刀片服务器、刀片机箱系统、网络交换系统以及水冷散热系统在内的全部系统。曙光5000的设计也完全符合中国刀片服务器标准。在自主创新的研制过程中,曙光在业界实现多个第一: 
        首次实现了4路16核的高密度刀片系统;
        首次实现了单刀片机箱40颗CPU的高密度机箱设计;
        首次采用了水冷散热系统,降低了高性能计算机对机房系统的要求,降低了系统功耗。
        第六,高速互联。
        曙光5000首次实现了基于ConnectX的 DDR Infiniband的交换结构,实现了20GB的节点间传输速度,同时实现了业界最快的小于1.6μs的低延时。
        第七,应用广泛。
        曙光5000不仅可以应用于高性能计算,还可以应用于信息服务、电子政务、网络游戏等常见商业应用。
        在高性能计算领域,曙光5000可广泛运行证券指数计算、电力安全评估、建筑工程抗震性评估、天气预报、石油以及地震资料处理、核能开发利用、汽车碰撞、电磁辐射、计算流体力学、基因匹配与拼接、蛋白质结构分析和材料科学等20多个应用领域。
        在商业应用方面,由于曙光5000使用Suse Linux 和 WCCS ,可广泛运行目前Linux和Windows下的主流行业软件。
        第八,自主创新的管理软件。
        在大型机研制过程中,曙光不仅追求最快,同时也在系统管理方面追求完美。曙光5000中,曙光自主开发了Grid View集群管理系统。曙光新一代Gridview大型机综合管理系统提供统一的集中式监控平台,具备可扩展性、集成性、可靠性和易用性,提供对各种商用、自己研发的管理工具的集成接口,包括直接以Portal的方式集成和抽取各已有管理工具的监控数据以便上层平台能够分析利用,从而满足同时对分布式广域局域网高效能百万亿次可扩展计算机的环境、硬件、软件等各方面进行监控的需求。曙光Gridview大型机综合管理系统具有高可靠性,具有一定容错性和健壮性,当部署运行环境等发生异常时系统能够运行在可控的范围内,并进行准确的异常定位提示。系统具有易用性,提供简单灵活的系统部署,人性化的界面和功能设计,方便最终用户的使用,包括灵活方便的个性化设置、多样的内容展现形式。管理系统同时提供个性化、自定义报表输出功能。曙光新一代GridView可有效解决大型机管理的复杂性问题,保障了管理的扩展性、可靠性、自主性和贴近应用需求。
        GridView管理系统不仅适用于曙光5000大型群集系统,也适用于全系列的曙光服务器。
        据曙光公司技术人员介绍,百万亿次计算机所面临的技术瓶颈要比十万亿次计算机更多、更难解决,其绝对不是简单的数字叠加就可获得,而是要从体系结构、处理器、互联芯片到组装工艺都有重大创新,甚至到每一条连接线路都要经过反复的论证。然而,通过曙光众多技术工程师的共同努力,这一系列世界性难题被一一破解,终于迎来了曙光5000的诞生。

注释:
    ①胖节点:计算性能更好的计算节点。
    ②所谓刀片,实际上就是系统主板。刀片服务器(准确的说应叫做刀片式服务器)是指在标准高度的机架式机箱内可插装多个卡式的服务器单元,实现高可用和高密度。它们可以通过“板载”硬盘启动自己的操作系统,如Windows NT/2000、Linux等,类似于一个个独立的服务器,在这种模式下,每一块母板运行自己的系统,服务于指定的不同用户群,相互之间没有关联。不过,管理员可以使用系统软件将这些母板集合成一个服务器集群。在集群模式下,所有的母板可以连接起来提供高速的网络环境,并同时共享资源,为相同的用户群服务。在集群中插入新的 “刀片”,就可以提高整体性能。而由于每块“刀片”都是热插拔的,所以,系统可以轻松地进行替换,并且将维护时间减少到最小。