English

人生能有几回搏

2004-07-14 来源:光明日报 作者:国家智能计算机研究中心 冯圣中 我有话说

引子

2004年4月30日凌晨1点40分,曙光4000A超级服务器已工作多时。“应该还有几分钟……”尽管连日熬夜使睡意阵阵袭来,但每个人还是强忍着。12分钟后计算终于结束。屏幕赫然显示着:“Linpack实测峰值8061Gflops,效率71.56%”。

曙光4000A共有2560个处理器,主频2.2GHz,数学计算可到4.4GHz,这样相乘得到理论峰值11万亿次。Lin pack效率是用实测峰值除以理论峰值。

在全球同类系统中,美国洛斯阿拉莫斯国家实验室的闪电超级服务器理论峰值与曙光4000A一样,11万亿次,然而,其Linpack实测效率达到了不可思议的71.47%。现在我们的曙光超过了闪电。

测试组立即发电子邮件向全球500强组织(top500)递交了计算结果,以前经常是世界高性能计算领域的权威、全球500强的直接负责人唐格拉 Dongarra 教授的下属和我们联系,而这次唐格拉教授马上亲自给了我们回复 “祝贺你们!”

全球500强排行是国际高性能计算机最权威的评测排名,由美国田纳西大学、德国曼海姆大学以及美国国家能源研究科学计算中心每年发布两次。从1993年6月已连续发布22届。到目前,进入全球前十名的只有美国、日本的超级计算机。

6月22日,全球500强组织宣布 曙光4000A进入全球前十,消息立刻震动了全世界。


图为世界前十曙光4000A服务器

初现曙光

从1993年推出国内第一台曙光1号,到1995年曙光1000,1996年的曙光1000A,国家智能计算机研究开发中心在国家科委(科技部)的大力支持下,取得了一系列丰硕成果。而曙光公司的成立又使曙光超级计算机的市场推广如虎添翼。

继曙光3000研制成功后,国家863计划继续支持智能中心研制曙光4000A,而上海市政府考虑到一期的3千多亿次计算能力已显不足,于2002年适时启动了上海超级计算中心二期建设。

2003年初,中国科学院与上海市两方一拍即合,决定将曙光4000A部署在上海超级计算中心,此后曙光4000A的研制工作迅速展开。

科技队伍

首先是CPU选型。AMD公司是世界排名第二的CPU厂商,目前正在寻求发展,尤其是刚刚推出的Opteron64位处理器,完全兼容32位计算。当然,选择AMD的处理器,也意味着必须做更多的创新,如支持4路CPU的主板、电源、散热等等。2003年10月,我们的主板终于通过了AMD全部测试和认证,为曙光4000A的成功打下坚实的基础。

与此同时,另一支队伍是做机群系统软件,单节点操作系统就用Linux,然而要使几千个处理器协调工作,并且使用起来和单机使用一样方便,光有单节点操作系统不够,还需要有机群通信系统、机群文件系统、机群管理系统、机群作业系统等等。这些方面,我们从曙光1号到现在已积累了丰富经验,研发进展顺利。

还有一支做网格零件的队伍。网格计算在计算所徐志伟教授“布道”几年之后,到2002年已成为各界关注的热点,863专家组把曙光4000A定位为“面向网格的高性能计算机”。这方面工作完全是创新,做出来就是独一无二的,智能中心目标明确,做一个独特的网格零件,支持网格计算。

突击队

今年3月中旬,曙光4000A节点机、机柜、网络设备陆续到位,并开始安装。

按照全球500强组织的规定,4月15日以前必须提交第一个计算结果,其后两周更新你提交的数据,否则不能参加6月份发布的500强排名。一般而言,这样大规模的测试,至少需要3个月,而我们只有20天!怎么办?

一个突击队迅速组建起来。目标是开展深入的理论研究,把小规模实验和理论研究结合起来,通过理论研究,缩小择优范围,把几千种可能的测试样本缩小到10种之内!

张文力,这个测试队伍中唯一的女性,樊建平老师的学生,被我们称之为“上帝的鞭子”。隐喻20世纪30年代波尔领导下哥本哈根学派的鲍利。她有一股不弄清楚绝不罢休的劲头,让她来鞭策大家再合适不过了。“这里的depth起什么作用?”“这里的align ment的作用有多大?”……就这样,张文力抽打了几乎一个礼拜,我们从头到尾又过了一遍,确信没有“漏算”。

4月11日67.8%

测试刚开始就碰到坎:加上操作系统优化,Linpack计算居然无法进行。为什么在128节点没问题,而256节点就无法进行?问题在操作系统、驱动、通信库、应用层?测试组成员霍志刚急得嘴唇布满水疱。曹振南、周小成、周应超三个年轻人坐在一起研究,36小时过去了!

“冯老师,我们想到的都改过来了,但是,不知道……”

好,改过来了,就上640节点!我们要对自己有信心!我心里说 该搏一搏了。

计算规模719200、分块232……作业加载!时间一分一秒过去。一切是那样顺利。

11日早晨6点多,曙光4000A的计算出来了。我们的第一个640节点Linpack峰值7638亿次/秒,效率67.8%。第一个结果就超过了863计划项目中要求的65%!

4月15日69%

接下一周,我们跌进谷底,没有更好的结果。“是不是内存条的原因?”曙光产品部经理邵宗有揣测。

“全面检查硬件设备。”历军总裁在关键时刻下令。测试小组立即行动,果然问题出在内存上。排除问题到晚上9点钟,抱着希望大家又开始测试。全系统重起、静态路由生成、网络驱动加载、通信模块加载、通信性能测试、单点性能测试,一切正常!

凌晨2:00,同样的故障又发生了!怎么办?

“简洁就是可靠性。换掉故障节点,我们再试一次。”副总裁聂华作出决策。

我们实施这个方案后继续拼搏。“看,69%!”智能中心主任孙凝辉和聂华同时看到结果。而大家一个个笑得孩子般天真!

4月22日70.89%

接下来几天,测试结果再也和预期无法吻合。

22日晚7:30,大家仍在讨论。

这时,李国杰院士走进来:“再试试看,现在不是看我们的测试水平,而是要全面检验我们的系统设计水平、性能优化水平。”话虽不多,是鼓励鞭策、更是让我们明确了大方向。

此时,在另一条战线上的操作系统优化也获得了大的进展。

几天来,孟丹亲自参战,没有责备、也没有鼓励,有的只是一遍遍的推理,一遍遍地命令这个去休息、那个去睡觉。霍志刚、周小成、周应超、曹振南……“我马上就去休息,马上就去。”然而就是不动。

“对不起,霍志刚正往回走,感谢你们家属的支持。”孟丹接到霍志刚新婚妻子的电话,很愧疚,又很欣慰。如今,这些年轻人也在自觉拼搏。十多年来,曙光人的“人生能有几回搏”的传统正在发扬光大。

在我们采用最新的操作系统优化结果,运用最新的理论分析测试后,困难被攻克了。

4月23日一上班,孟丹便给大家打电话 “昨天结果是70.89%,我们的第二大目标实现了!”

挑战极限

“现在离71.47%的世界纪录近在咫尺,是否继续努力?”孙凝辉和大家都想往上冲。

29日是个阴雨天,几天闷热后,北京的气温遽然降到5摄氏度。参加测试的10多人,特意找了家有卡拉OK的酒馆,把刘德华的《中国人》唱了几遍。回到机房,大家的心情特别好,把所有的环境排查一遍,开始测试。

供电系统、空调系统、网络系统、所有节点、运行环境、作业加载……一切正常。

这是曙光4000A冲击世界高峰前的最后一次Linpack测试,就是这次冲刺冲进了世界前十名,创造了中国高性能计算领域的又一个奇迹。

2004年4月30日凌晨,连续计算了8小时40分钟的中国超级计算机―――曙光4000A最终震撼了全世界。

手机光明网

光明网版权所有

光明日报社概况 | 关于光明网 | 报网动态 | 联系我们 | 法律声明 | 光明网邮箱 | 网站地图

光明网版权所有