高海昌
■通讯员 付一枫 本报记者 张行勇
利用公共通讯网路,如互联网和电话系统,在未经许可的情况下,攻入对方系统的被称为黑帽黑客(black hat);调试和分析计算机安全系统的称为白帽黑客(white hat)。
近日,西安电子科技大学软件学院副教授高海昌提出一种简单通用的新的文本验证码自动识别方法,一举破解当前所有使用基于字母和数字识别作为验证码的网站。至此,包括全球流量排名前20的所有网站所使用的验证码被首次全面破解。团队人员共同撰写的论文A Simple Generic Attack on Text Captchas被信息系统安全顶级国际会议NDSS’2016正式全文接收。
“破解验证码的目的,不是为了破坏,而是找出现有验证码的缺陷,寻求解决方法,推动验证码研究不断发展。”高海昌称自己属于白帽黑客。
心愿初衷:
研究验证码,站好网络安全第一班岗
模糊纠缠,难辨难认,许多人都有与此类验证码斗争却败下阵来的经历。安全无小事,验证码就是要站好网络安全的第一班岗。面对日新月异的验证码破解手段,年轻的高海昌一直默默地从事着提升验证码安全性和可用性的工作。
“对验证码的研究,其实就是对其鲁棒性和可用性的研究。”高海昌说。在验证码的领域中,鲁棒性就是要求验证码机制防破解能力强,不会轻易被计算机程序自动识别。可用性就是要求验证码机制对于人类的使用交互友好,既不能识别困难,也不能让识别时间过长。“验证码研究向前推动,难点就在于不断寻找这两者间的最佳平衡点——毕竟可用性高,就要求验证码简单,安全性便可能因此降低;而鲁棒性强,安全性大大提升,使用的方便度便不那么高。”
“最近频遭质疑的12306网站的图片验证码,人类的通过率只有8%。相反,机器通过却易如反掌。12306后台目前有581种生活中常见物体图片的验证码,包括动植昆虫、食品果蔬等12大类。数量虽不多,但考虑到图片大小、清晰度等问题,要想在短时间内予以识别,确实困难。”高海昌介绍说。对于计算机来说,581种图片的学习量再小不过——破解程序经多次尝试,建立图片答案库,不到一秒便可轻松通过验证码程序,验证码的可用性和安全性都差强人意。
“验证码的进步就是一个‘研究、破解、提升、再破解、再弥补’的过程,国际、国内的许多公司常向我们寻求建议。”高海昌对记者说。
2013年,各大网站纷纷推出空心验证码,机器识别度较差,但是人类仍然可以很好地识别。但高海昌发现,只须先将空心填充成实心字符,使用颜色填充算法得到离散的笔画块。然后使用卷积神经网络和深度优先算法对笔画块进行组合识别,寻求最优解作为识别结果,此类验证码也可就此被破解。
据介绍,高海昌团队针对Yahoo、百度、新浪、腾讯、和中国移动在线支付网站的空心验证码分别取得了36%、51%、59%、89%和66%的成功率。其成果的研究文章The robustness of hollow CAPTCHAs被密码学和信息安全领域享有崇高声誉、公认的顶级国际学术会议之一的ACM CCS 2013正式录用,这也是中国大陆研究机构首次有论文在这个高档次会议上发表。
未来方向:
“破”与“立”中守护互联网安全
当文本验证码被证明不再安全,寻找可使用简便、安全性又高的新验证码,便成了高海昌目前工作的重点。
“‘破’是为了更好地‘立’。想要设计新型的验证码,就须综合考虑当前图像处理和人机交互领域的最新进展和成果,尽力挖掘出人类擅长处理而计算机AI算法不擅长的。”高海昌说,“这个过程中,最难的便是如何保证验证码不易被破解,同时还实现用户友好。”
近日,高海昌正致力于研究一种十分巧妙的新型图片验证码。据悉,经试验后,目前尚没有计算机程序能有效破解高海昌团队所提出的新验证码。
尽管文字验证码已被证明不安全,但因为其使用的便捷性以及新型验证码机制的不成熟,如典型的12306图像验证码,当下尚不可能完全被取代。“图形验证码比文本验证码先进,这也是技术发展的趋势。”高海昌说。
“验证码的研究是小步前进的,每次进步都是已有成果上的小幅推进,想要提出一种全新的验证码,达到鲁棒性和可用性的最佳平衡,目前来说难度还很大。”高海昌说,“但安全无小事,技术上不能开倒车,在未来,运用指纹、虹膜等生物特征作为验证码得到普及也有可能实现的一天。坚持下去,验证码的发展或许会有翻天覆地的变化。”
在这场“破”与“立”的拉锯战中,高海昌乐在其中。
《中国科学报》 (2016-01-08 第2版 人物)