《科技创新与品牌》杂志社创世·纪

“天河一号”超算先锋

  作为一国战略力量的体现,超级计算机广泛应用于诸多战略威慑领域,比如新型核武、新型能源技术、飞行器设计、火箭发动机模拟……它间接反映了这些领域的能力和水平,因此成为世界各国争先恐后抢占的战略制高点。
  在这一领域,美国一直是无可争议的领跑者。2000年前后,日本人也在这一领域崭露头角。而“天河一号”是改革开放以来我们在这一领域拿到的第一个第一,它是我国经济、军事等领域多年发展的成果,是国家实力的综合体现。


  卢凯,1973年7月出生,中共党员。1999年毕业于国防科技大学计算机学院,获博士学位。现为国防科技大学计算机学院计算机研究所副所长、研究员、国防科技大学计算机学院国家重点学科系统软件方向学术带头人,博士生导师。作为副总师参加了“863千万亿次高效能计算机系统”项目的研制,有效支撑网络化使用和云计算,研制成功的“天河一号”是我国首台千万亿次高性能计算机系统。

1 超算争锋

  2010年11月,由国防科大自主研发的“天河一号”超级计算机系统在世界高性能计算机五百强排名第一。“天河一号”采用CPU+GPU的混合架构。配有14336颗Intel Xeon X5670 2.93GHz六核心处理器、7168块NVIDIA Tesla M2050高性能计算卡,以及2048颗我国自主研发的飞腾FT—1000八核心处理器,同时还配有专有互联网络,造价在6亿元以上。
  7个月之后,日本的超级计算机“京”以其每秒钟8.16千万亿次的运算能力,将“天河一号”挤下冠军宝座。
  2011年11月16日,TOP500.org组织公布了第38届全球超级计算机五百强排行榜,升级完毕的日本“京”轻松蝉联桂冠,这也是人类历史上第一台计算能力跨越1亿亿次的计算系统。
  不过,“京”的位置也不会一直稳固,美国国防部和能源部的下一代超级计算机计划早已热火朝天地展开。而之前的消息就传出,美国开始商讨超级计算机的下一个里程碑:百亿亿次计算机研制。这种新一代超级计算机的运算速度届时将是“京”的100倍。
  记者:世界各国争先恐后地研制更快的超级计算机,作为这一领域的专家,您怎么看争第一这件事?我们为什么要争,我们有没有能力争?
  卢凯:高性能计算实际上不仅是一个国家综合国力和综合技术水平的体现,还是一个国家战略威慑力量的体现,是推动科技创新、经济发展、社会进步、国防安全的重要工具,在国家战略中占有特殊地位。它不仅代表硬件和软件水平,更代表应用技术和管理技术等。把庞大的高性能计算机投入使用,需要方方面面的支持,任何一方面不足都会影响它发挥作用。
  作为一国战略力量的体现,它广泛应用于诸多战略威慑领域,比如新型核武、新型能源技术、飞行器设计、火箭发动机模拟……它间接反映了这些领域的能力和水平,因此成为世界各国争先恐后抢占的战略制高点。
  在这一领域,美国一直是无可争议的领跑者。2000年前后,日本人也在这一领域崭露头角。而“天河一号”是改革开放以来我们在这一领域拿到的第一个第一,它是我国经济、军事等领域多年发展的成果,是国家实力的综合体现,绝不是昙花一现。
  从去年的超级计算机最新排名看,五百强中,74台为中国所有,而2007年中国只有10台。我们正在迅速赶上来。
  我国的“天河一号”拿到世界第一以后,引起世界震惊,这对美国也是一个不小的触动,对美国高性能计划是一个推动。看到中国人逐渐赶上来,他们的许多高性能计算计划纷纷出台,力争夺回第一位置。
  据《华尔街日报》报道,当时看到中国安装了世界最快的超级计算机,美国政府机关和企业立即行动起来,要恢复美国在这项技术中的领导地位。他们当时定下的目标是,把当前最强大的计算机加速1000倍。
  俄罗斯政府也认为超级计算机是一个需要投入的领域,是国家综合实力战略体现。
  而日本“京”2011年的初次夺冠,包含很多因素。首要的一点是因为“3·11”地震后,日本亟需振奋国民精神,体现国家力量。“京”当时只建设完成了一部分,没有进入可运作状态就匆忙推出,实际包含很多政治寓意。日本有科学家也说,“京”就是“日本复活的起爆剂”。

2 超算算什么

  2012年4月23日,国家超级计算天津中心主任刘光明在“天河一号”推广应用情况发布会上宣布,“天河一号”已成为目前世界上获得广泛应用的、最快的超级计算机系统。它形成应用服务的“5+X”模式,已为300余家全国重点用户提供高性能计算服务。平均利用率达到60%到70%,居世界前列。“5+X”中,“5”为5个应用平台,“X”为广泛的科技服务。
  刘光明说,超级计算机与百姓生活密切相关,其应用可以简单概括为:算天、算地、算人。
  记者:相关专家指出,“高性能计算机可以称作一个国家的基础设施。它本身代表着一个国家的高技术能力,同时也为今后其他领域高新技术的发展开创了一个更广阔的空间。”这些高新技术都包括哪些?高性能计算机为它们开创了什么样的空间?
  卢凯:基于超级计算机的计算科学作为人类除理论科学和实验科学之外认识和研究世界的第三种手段,它是一种标志性的基础设施。
  传统意义上,进行科学研究有两种方法:理论研究和科学实验。原来理论推导之后,要做真正的实验。有时成百上千次的实验,才能达到研究目的。高性能计算技术出现以后,扩展了第三种方法,即基于计算来进行科学研究。
  高性能计算机可以在科研和工业创新领域,极大提高效率、降低成本、缩短研发周期。有了高性能计算机,一些研究工作就不需要科学实验,或者只需要做一小部分实验。原来很长时间很多经费才能完成的工作,现在通过三种方法结合,可以多快好省地完成。
  例如,做材料设计时,原来理论推导之后,需要大量实验才能得出材料该用什么配比什么温度等,现在整个化学实验过程可以用计算机模拟方式来做。我们已经初步了解了在原子分子层面物质世界的相互作用原理,以此来构建实验环境,做原来停留在物质层面上的事情,这样不仅节省了时间,提高了效率,而且节约的经费常以千万元计。
  在飞行器设计上,如何应对湍流是必须解决的问题。湍流就是乱的空气流,单纯依靠吹风洞很难完整模拟实现。而我们可以通过流体力学生成机理,用数学表达数据模拟大飞机、大飞行器湍流实验。它比风洞实验更能完整模拟飞机等在乱气流中,处于什么样的状态是最好的。这种模拟只有计算机能做,用计算机模拟也是唯一可行的方法,从而使飞机设计周期大幅度缩短。
  根据我们的调研,基因技术,新能源设计,大飞机、大火箭气动外型的设计,发动机设计,生物制药等也都对高性能计算提出要求。
  从某种意义上说,高性能计算机不再局限于1加1的简单计算,已经成为高新技术研究中极具重要性的基础支撑工具。同时,也不仅限于高精尖领域,而是与日常生活密不可分,最直观的例子应该是天气预报。天气预报需要计算的数据量庞大,过去一天的数据量两天才能算完,变成了“天气汇报”。现在,“天河一号”已经在给湖南地区提供天气预报,几个小时内可以算出未来一到两天的天气,半天的时间能够算出未来一周的天气。高性能计算机,已经不仅是阳春白雪,它正在为大众的日常生活提供切切实实的帮助,只是我们可能没有察觉。
  记者:世界上所有的先进技术几乎都诞生于军事领域,中国许多高新技术的发展也走过了军用和民用两个阶段。但即便是“银河”系列超级计算机这样的核心关键技术,从投入使用之日起就没有离开过普通老百姓的生活。那么“天河”系列,会不会沿袭这一传统,将怎样沿袭?
  卢凯:“天河”高性能计算机是国防科技大学贯彻胡锦涛总书记“军民结合、寓军于民”指示精神的典型成果之一。“天河”得益于“银河”的积累,肇始于“银河”技术的民用化。未来的“天河”系列计算机,不仅会继承“天河一号”的高性能,也将继续沿着这一路径,为广大民用需求提供服务。

3 超算可靠吗

  在信息时代,网络已成为事关国家安全和人民利益的无形疆域,网络安全保障能力已成为国家安全战略能力的重要组成部分。
  在网络环境下,窃密方式更加隐蔽,危害更加严重。我们身边仍然发生着众多信息泄露事故:2012年考研英语、政治试题大规模外泄;大家熟知的维基解密事件,经美国军方调查,文件的泄露者是曾在伊拉克服役的美军情报分析员布拉德利•曼宁,作案工具就是移动存储设备……
  看似无关紧要的漏洞,随时可以毁灭一切。
  超算可靠吗?

2011年,卢凯在德国汉堡国际超级计算大会上作会议报告


  记者:随着互联网的普及,网络信息安全也成为大众关注的焦点问题。有专家表示,信息资源应同国家领土与能源一样视为国家资源。从国家信息安全角度,未来的超级计算机在这方面有什么样的考虑?
  卢凯:高性能计算机给千家万户服务,为广大用户提供了公共信息空间。针对恶意窃取信息,“天河一号”已经研制开发出一套专门系统,这就是我们首创的高性能虚拟域技术(HPVZ)。
  高性能虚拟域技术改变了过去高性能计算机为所有人共享、用户可相互看到彼此的信息、为信息安全带来困扰的局面。利用这一技术,机器被软件系统隔离成多个“保险箱”,这样相当于把每一个用户放到了保险箱里,用户使用时就好比在“保险箱”里干活。如果把“天河一号”比作大楼,我们就给每一个用户分配了独立的房子,使他们互不干扰。
  高性能虚拟域技术属于世界首创,之前的许多高性能计算机虚拟化技术力图实现这一目标,常因为性能损耗太大(达10%左右)而舍弃。高性能计算机将高性能作为首要目标,若以性能损失换安全,则有悖于设计者初衷。
  高性能虚拟域技术,针对高性能并行计算机系统管理难度大和用户运行环境灵活性差等缺陷,面向用户数据安全保护需求,基于虚拟化的快速环境构建和安全隔离技术,向用户提供了可灵活定制运行环境,并可有效保障用户数据安全。同时,提出了快速路径切换和轻权文件系统等优化技术,使HPVZ的性能开销小于3%。HPVZ技术是世界上首个实用在高性能并行计算机系统上虚拟化计算环境,它性能损失小,兼顾高性能和高安全,已经在“天河一号”得到应用。
  以后在“天河”系列中,我们会继续完善这一技术,使它在普适性、易用性和易管理性方面表现更为突出,性能损耗更低。总之,就是让它更实用、更好用、更易用,让我们的“天河”成为在互联网环境下安全的高性能计算机。

4  志在高峰

  在众多领域,计算模拟已逐渐替代传统的实验测试成为产品设计和创新的主要手段。当前科学研究与工程正在向更大规模、更高复杂度、更加微观或宏观的领域发展,这种发展趋势形成了对高性能计算越来越强烈的需求。高性能计算已经成为各种前沿科学研究、技术开发和工程设计必不可少的重要手段,被世界各国公认为支撑科学技术发展的战略技术,也是确保长期保持竞争优势和领导地位的重要工具。而高性能计算本身同样需要不断创新。
  记者:上世纪九十年代初,您初入大学就选择了计算机专业,当时这个领域是比较新兴的,是什么样的契机和信念支撑着您选择了这一研究领域,并且一直由研究生、博士一路走来,成为一名高性能计算机研究者?
  卢凯:我1991年参加高考,当时计算机比较热门,选择它一是因为它是新兴专业,再者是受到父亲的影响。我父亲也从事高性能计算机研制工作,他的言传身教对我影响很大。我当时觉得这一领域既神秘又富有挑战性,应该去学,因此报考国防科大计算机学院。
  在学习过程中发现,系统软件是硬件和软件的核心,是计算机最核心部分,它使高层应用软件和底层硬件衔接。学习深入后,越发觉得它很神奇。当时有很多研究方向,最后还是决定去研究最神秘的操作系统。
  1995年我本科毕业,那一年国防科大第一年实施硕博连读,我是第一批学生,在导师指导下,用四年半的时间拿到了博士学位。八年半的时间从本科读完博士,在国防科大历史上是时间最短的。毕业后,仍然留存国防科大高性能计算领域,继续从事喜欢的事。
  这么多年来,对于国防科大和我们这个团队一直怀有很深厚的感情。我们从老一辈高性能计算机研究者身上继承了“胸怀祖国,团结协作,志在高峰,奋勇拼搏”的16字精神。在老一辈学者师长的言传身教下,同学同事之间形成了良好的研究氛围,把解决国家对高性能计算的需求作为己任。
  我们从自身能力和愿望出发,希望利用国防科大提供的平台和舞台,完成自己的抱负,实现自己的理想。
  记者:科学研究成果的取得离不开自主创新精神。近几年来,我国一直在大力提倡建设创新型国家,您在实际的研究工作中,对自主创新有哪些认识和体会?结合您的研究经验,您认为怎样才能做到自主创新?
  卢凯:当下,科技进步日新月异,我们从事研究工作不可能自己从头开始做,必须站到巨人的肩膀上,看到问题的最前沿,才能遇到新问题、解决新问题,才能实现重大创新。
  创新一定要脚踏实地,要有发现问题、解决问题的勇气,如果不能踏实地理解问题、解决问题,创新也就无从谈起。作为从事工程技术的人来讲,不安心技术一线是肯定不行的。
  创新来源于对问题的敏感,创新是可求的。看到问题细致分析,找到症结所在,与看到问题就绕开是截然不同的两种办法。后者是不可能实现开创性的创新的。
  以“天河一号”为例,能耗是大问题、系统计算能力也是大问题,如果光想到节能,没有从结构上解决问题的勇气,就不会有我们现在采用新的体系结构引领世界异构体系结构潮流的重大创新成果。在“天河一号”遇到上述两个问题困扰,研发受阻时,杨学军校长从基础理论出发,解决未来高性能计算评判准则,提出了将CPU加GPU体系结构运用到高性能计算的解决方案,最后通过工程实践和技术优化,证明这一想法是十分可行的。由此看来,创新一定要迎难而上。
  再者,创新要把工程技术和学术研究相结合。产学研相结合,是创新的重要契机。国防科大是综合性大学,计算机研究所则偏向工程,同时也具备充分的学术研究经验。我们创新问题是来源于工程实践,再上升到理论层面,实现重大突破。
  国防科大能够为我们提供产学研结合平台,为我们提供技术支撑,使我们可以把工程实践遇到的问题,拿到国家实验室来进行学术探讨,让学生进行前瞻性研究,再将研究成果第一时间应用到工程实践中去,这样实现原始创新。这也是“天河一号”获得成功的重要因素。

5  更高目标

  2012年3月,相关媒体报道,国防科大计算机学院与广东方面合作研发的新一代高性能计算机系统,属于“十二五”时期国家863计划设计的“高效能计算机及应用服务环境”重大项目。研制目标是在2015年年底前在“天河一号”的基础上有更高提升。
  记者:我们的“天河一号”已经被日本的“京”超越了,但是在500强的前十位里,我们仍然占有两席。今后一个时期,我们是否还有“冲顶”计划?
  卢凯:我认为,这一问题要从两个层面来看。“十二五”期间,一方面国家战略需要体现我国综合技术实力;另一方面我们也确实有很多领域需要这么大的系统。千万亿次的“天河一号”的成功,在于千万亿次需求已经有需要,更在于我们自身几十年来的技术积累,我们已经具备了这样的经济要求和技术实力。
  目前中国超级计算应用正处于高速发展期,据统计,国内超级计算的应用需求以每年2.3倍的速度增长。之后的高性能计算机研发,我们要面对更多用户的更高要求,争取向更大规模的高级计算机发起挑战。根据科技部要求,我们将在2015年年底前,突破多项核心关键技术,研发出计算能力进一步提升、实用好用的超级计算机系统。