《科技创新与品牌》杂志社创新人物 Personage

范东睿:带领“金刚”打造全新信息高速铁路

范东睿

Fan Dongrui

范东睿,中国科学院特聘研究员(骨干人才),博士生导师,高通量计算机研究中心主任,北京中科睿芯科技有限公司董事长。主要从事众核处理器体系结构研究,主持和参加了“973”、“863”、核高基、自然科学基金重点项目、中科院先导A类项目、欧盟第七框架项目、北京市自然科学基金等十多项国家级重点科研项目课题。

1993年9月,美国政府宣布实施一项新的高科技计划――“国家信息基础设施”(National Information Infrastructure,简称NII),旨在以因特网为雏形兴建 “信息高速公路”,使所有的美国人方便地共享海量的信息资源。“信息高速公路”的发展为美国带来了巨大的社会经济效益,同时也在世界范围内掀起了建设信息高速公路的热潮。

范东睿(右一)在研究院工作中


信息基础设施关系国家安全和重大利益,攸关产业命脉。中国自改革开放以来,与发达国家相比信息基础设施仍十分薄弱,一直依赖于美国政府主导构建的“信息高速公路”,核心芯片也主要来源于美国进口。随着IT3.0时代的到来,人-机-物三元高度融合,传统的“信息高速公路”已无法满足中国人的海量数据处理需求,同时为彻底解决信息技术“卡脖子”的问题,就要走中国人自己的路——构建“信息高速铁路”。为此,2018年底,北京中科睿芯科技有限公司研发完成了全球首台高通量计算机——“金刚”。“金刚”的成功研发离不开睿芯团队的坚持与努力。

CNCC-高通量计算论坛

用心钻研,从“芯”出发

2000年,范东睿从北京交通大学理学院应用数学系毕业。4年的学习仍无法满足他对知识的渴望,大学毕业后范东睿选择进入中国科学院计算技术研究所(以下简称“中科院计算所”)学习。在这里,开启了他的科研之路。

2009年范东睿被评为中科院计算所卓越之星;2010年获评北京市科技新星;2013年获北京市科学技术奖;2014年获中科院卓越青年科学家奖;2017年获首都科技领军人才;2018年入选科技部创新人推进计划;2019年成为中组部“万人计划”领军人才。一个个傲人的成绩源于一次次用心的钻研。

范东睿在中科院计算所接触到了第一批芯片——龙芯处理器设计。然而范东睿发现,若是只专注于做芯片,却没有相配套的板卡整机,也没有匹配的应用软件、应用系统,无法形成完整的生态链,即使研发成功了芯片,也无用武之地。美国早在20多年前就已经拥有了信息高速公路计划,而中国只能走在美国为我们铺好的道路上,一旦美国不再为我们铺路的时候,中国的信息发展将会受到掣肘,从“中兴事件”中我们不难看出这一点。

范东睿进行主题演讲


2005年,研发团队成立,专门从事“延长摩尔定律的处理芯片新原理、新结构、新方法”的新体系结构研究。2009年研发团队自主研发的并行加速千核万线程模拟器SMARTSIMU研制成功,在北京理工大学、华中科技大学、美国特拉华大学等科研机构均有试用。2010年,睿芯团队自主研发众核处理芯片睿芯一号SmarCo-1(Godson-T)成功流片,并于2011年入选“全球十大服务器芯片设计”。2013年,高通量众核视频处理芯片睿芯二号SmarCo-2(DPU-m)成功流片,研发团队获“北京市科学技术奖”。

“我们肩上担负的责任重大,中国的信息发展缺乏完整的系统的解决方案,不管是视频大数据,还是对特殊场景的模拟,都需要一个软硬件一体的协同创新的平台。作为中科院所属的企业,要以做出中国人自己的睿智的芯片为己任,公司就叫‘中科睿芯’吧。公司名中带了创始人的名字,如果做不好,那就丢了自己的脸。”中科院计算所所长孙凝晖说。因此,2014年11月,北京中科睿芯科技有限公司(以下简称“中科睿芯”)正式成立,总部设立于北京市中关村地区,由中国科学院计算技术研究所和中科院计算所高通量计算中心团队共同投资建立。中科睿芯致力于成为高通量计算的引领者,提供高通量计算的前沿技术研究、实现和整体解决方案。

自2014年成立以来,中科睿芯的技术研发实力和市场营销能力快速提升,相继获得中关村高新、国家高新、瞪羚企业等资质,并先后获得中科院科技成果转化奖、德勤明日之星、北京市科学技术二等奖等荣誉,已具备以自主高端芯片为核心的全系统级研发及产品体系。


用心钻研,用“芯”成就

“我国现有的信息基础设施经历了一个漫长的过程,从以单机计算为代表的IT1.0时代,到后来的以人-机二元计算为代表的IT2.0时代,再到目前正在进入以人-机-物三元网络计算为代表的IT3.0时代。计算机的核心需求已经从以计算为中心转变为以数据为中心。”范东睿表示。

他认为,传统计算机系统设计所赖以生存的业务基础已经发生巨变,新的应用需求集中体现在高并发负载和强实时服务保障等方面,而传统计算机在高负载环境下不仅无法达到实时的响应需求,也无法确保高并发、高利用率和强实时的同时满足。为此,中科睿芯研发团队根据中国科学院率先在国际上提出的“高通量计算”技术的研究,展开了高通量技术的产品研发和产业化。终于,在 2018年底完成了全球首台高通量计算机——“金刚”。

金刚


“金刚”针对高通量应用场景所体现出的高并发特点,采用了计算所自主研发的全球首款高通量众核处理器,在网络视频处理场景下可支持千路视频的实时并发处理;并应用了计算所自主研制的国内首款云端深度学习加速芯片,该芯片在全球首次系统性提出了深度学习指令集;为了高效发挥出上述核心芯片的处理性能,“金刚”首次提出并研制了具备大数据处理和深度学习平台深度融合的高通量计算软件平台,该平台支持软硬件协同的垂直优化,从而进行最大化系统处理。

“金刚”依靠上述技术,实现了远高于传统服务器的高密度和高能效,还可针对业务环境的高并发特点,采用可扩展众核设计,支持海量线程并发,以满足高通量计算“算的多”这一核心需求。通过软硬件协同技术支持实时性感知的任务调度和数据访问,从而实现了高并发、高利用率的同时还能确保应用的服务质量。“金刚”拥有的核心技术自主可控,其核心加速芯片和软件平台均是国产自研技术,整机安全可控。

“‘金刚’的研发成功不是一蹴而就的,是经历了一次又一次的研究和挫折的。”中科睿芯总经理王达说。研发之初,团队大多以九零后为主,他们年轻有活力,有向上的冲劲,虽然他们缺乏实践经验,但是在团队的相互配合和鼓励下,又有老员工从旁协助发挥带头作用,很完美地完成了项目。不仅使老员工发挥了自己的专业所长,也使团队中的年轻人得到了成长,团队得到了更好的融合。

“金刚”的服务器包含数千种各类元器件,工程师们把每个元器件的特性,以及可替换的同类元器件的特性都牢记在脑海里,以便于在研发过程中可以及时合理的调配,在满足各种性能指标的同时最大限度的降低成本。为了节约研发时间,睿芯团队在项目管理上建立了严格的开发流程和规范,做到在“规范与效率”和“质量与风险”之间的完美平衡。睿芯团队还充分利用国内现有的成熟产业链,以外包或外协的方式完成一些非关键部件的生产加工,充分发挥专业分工的优势,有效地提高了时间的利用率。

“金刚”的研发成功,一方面改善了我国服务器市场核心芯片受制于人的境况,极大提升了服务器核心部件的国产化率和整体安全性;另一方面,高通量计算机有效解决了当前数据中心服务器利用率偏低的问题(当前基于传统架构的数据中心服务器的平均利用率普遍仅在10%~30%)。王达表示,目前“金刚”高通量计算机已经在一系列典型场景中开展示范应用,并将逐步应用到国民经济主战场中,贡献于国计民生。