|
2017年度北京市科学技术奖成果: |
为芯片全生命周期“健康”保驾护航 |
|
■本报记者 陆琦
2017年度计算机体系结构国家重点实验室评估现场,李晓维向专家介绍情况。
大到占地上万平米的数据中心,小到一枚助听器,其中都有芯片的身影。芯片虽然没有生命,但也和生命体一样面临“健康”问题,即可靠性问题。修复软件的Bug可以通过修改源代码来实现,可芯片的“健康”一旦出了问题就不那么容易恢复了。
中科院计算所计算机体系结构国家重点实验室李晓维团队通过多年潜心研究,在验证、测试、容错等方面取得了一系列国际领先的科研成果,从设计、制造到服役,为芯片全生命周期的可靠性“保驾护航”。
要求苛刻的芯片可靠性
处理器芯片是现代信息技术的引擎,是数据处理的核心。然而,设计过程中可能由于考虑不周导致制造出的芯片功能故障,制造过程中会遭受芯片缺陷而导致逻辑正确的芯片不能成为合格产品,即便在服役期也会由于一些物理机理的作用产生老化等问题……
我国高性能处理器芯片长期依赖进口,2000年以来,随着我国积极推动国产高性能处理器的研制及其产业化,对高性能处理器设计正确性的验证和制造缺陷的检测提出了迫切的需求。
“设计过程中的问题需要通过验证的方法来解决,制造过程中遭受的一些随机杂质等因素造成的缺陷可以通过芯片测试来筛除,而服役期的可靠性则必须通过设置一定的容错机制来保障。”李晓维说。
这在很多特殊的应用领域具有非常重要的意义,例如飞行在深空的航天装备中的芯片如果出了问题很难及时更换,所以对可靠性的要求尤其苛刻。2005年起,李晓维团队开启了芯片全生命周期的可靠性构建研究。
打破封锁实现有效测试验证
测试验证,是芯片服役前要过的第一关。
如同妈妈们通过孕检来确认即将出生的小宝宝是否健康,科研人员则通过测试验证来保证设计和制造出来的芯片符合设计要求,解除系统失效的隐患。
测试验证使用的最主要的方法是模拟。该方法主要的难点在于输入的数据量巨大,想要完全地测试验证处理器,需要的时间非常长。为了加速测试验证的过程,需要把输入进行分类,仅挑选每一类中的代表对处理器进行测试验证。
但处理器的设计非常复杂,输入的组合和分类情况同样是极其复杂的。于是,李晓维团队对测试验证的方法进行探索,提出了一系列形式化和半形式化的方法解决了这一难题。
在生产环节,西方国家对我国测试设备出口时关键性能指标——时钟频率的限制,使我们甚至无法利用测试设备的时钟直接支持高性能处理器芯片的实速测试,妨碍了我国高性能处理器的顺利发展。
李晓维团队通过在芯片电路里的一个特殊设计,实现了高性能处理器芯片的实速测试,打破了国外的技术封锁。
为应对服役期的芯片健康问题,他们发展了传统的基于多模冗余的容错技术,给芯片装上“急救包”。这些“急救包”部署在芯片内部一些容易出现问题的位置,例如关键的运算单元、重要的数据链路等。
“遇到一些容易处理的伤病,芯片自己就可以解决,不必为了处理一些小问题而专程请‘大夫’了。”李晓维说。
如今,芯片在设计、制造、服役这三个环节的可靠性问题都解决了,但这还远远不够。李晓维的理想是,未来能够在可靠部件的基础上构建可靠系统。
揪出隐藏的不安全因素
自2010年以来,李晓维团队的成果已经应用于包括安全认证芯片、星载微处理器芯片、多媒体处理核心芯片、高端通用处理器芯片等10余款高性能处理器的设计验证、可测试性设计与片上容错设计。其中,使用他们成果的安全认证芯片在指纹考勤门禁领域的市场占有率超过50%,国产星载微处理器芯片已成功应用于10余个国产卫星的控制计算机。
“不断创新,推动技术进步,造福人类。”李晓维做研究并不是为了自己获利,让梦想成真才是他不懈的追求。
从最初的产品质量测试,到全生命周期的可靠性构建,深耕细作近20年,李晓维始终没有停下探索的脚步。他的下一个目标,是安全。
“可靠不等于安全。”他说,“目前我国无处不在的处理器绝大多数都是进口的,有没有把重要信息泄露出去,有没有恶意植入的木马甚至逻辑炸弹……我们要想办法去除这些不安全因素,把隐藏的‘间谍’揪出来。”
《中国科学报》 (2018-04-26 第8版 双创)