GAN就对了:基于文本的验证码已经成为末路
作者:星期四, 十二月 13, 20180

即便你厌烦分辨CAPTCHA图形网格中的汽车、路标和其他物体,也要努力习惯挑出这些图形验证码,基于文本的人机测试被AI软件机器人打败,主流网站门户大开,基于文本的验证码已经成为末路。

CAPTCHA是“区分计算机与人类的全自动图灵测试”的首字母缩写。CAPTCHA测试用于分辨软件机器人和人类,很多互联网用户对此应该非常熟悉了。

CAPTCHA并非完美无瑕,这也是为什么Facebook之类的公司经常清理虚假账户的原因所在。而机器学习与图像识别技术的不断发展,又令设计能挡住软件机器人而让人类通过的谜题更加困难了。

英国兰卡斯特大学、美国西北大学和中国北京大学的研究人员设计出了一种方法,可以创建文本CAPTCHA求解器,令自动化解密文本描述变成小菜一碟。

今年10月的第25届ACM计算与通信安全大会会议论文中,研究人员描述了他们的CAPTCHA破解系统,如今该论文已公开发表。

正如论文标题《另一种文本CAPTCHA求解器:基于生产对抗网络的方法》所揭示的,这些计算机科学家使用了GAN(生成性对抗网络)来教导他们的CAPTCHA生成器——用于其训练文本识别模型。

GAN的概念最初于2014年提出。GAN由2个互为对手的神经网络模型组成,其中一个模拟某物,而另一个专挑该模拟中的问题,直到再也识别不出该模拟与真实之间的区别。

很巧合地,谷歌和斯坦福大学的研究人员发表《好日子到头:文本CAPTCHA通用求解方法》也是在2014年。如今4年过去了,限制通用攻击的速度路障被扫清了。

能突破吗?用GAN就行!

GAN特别适合高效训练数据模型。研究人员运用GAN教导他们的CAPTCHA生成程序快速创建大量合成文本谜题,在用这些谜题训练他们的基本谜题求解模型。然后,研究人员通过学习迁移精调模型,用数量少得多(不足500个)的真实样本就能打败真正的文本谜题。

这些年出现了很多对文本CAPTCHA的攻击,但处理特定文本微调技术所需的攻击机制训练限制了攻击者响应CAPTCHA修改的速度。

论文中,研究人员解释道:

调整攻击试探方法或模型需要大量专家经验与知识,且数据收集与分类是个劳动密集和费时的过程。

虽然已经出现了几种通用攻击方法,这些方法却都只对相对简单的安全功能有效,比如背景噪音和单一字体。

研究人员认为,通过减少人力参与和创建针对性CAPTCHA求解器,他们的攻击对文本CAPTCHA产生了特别严重的威胁。

研究人员测试了33种基于文本的CAPTCHA方案,其中11种是今年4月时Alexa排名前50的网站使用的。仅仅不到50毫秒,仅仅利用一台台式机的GPU,研究人员就破解了这些CAPTCHA。

在有基于图像的CAPTCHA方法可用和谷歌10月翻新了reCaptcha技术的情况下,头脑正常的人谁还会继续使用基于文本的CAPTCHA呢?结果会继续使用的人还真不少,其中就有百度、eBay、谷歌、微软和维基百科。

但随着物体识别CAPTCHA也逐渐屈服于基于机器学习的攻击,或许是时候考虑图灵测试之外的人机区分方法了。

2018年10月第25届ACM计算机与通信安全大会上的论文:

http://www.lancaster.ac.uk/staff/wangz3/publications/ccs18.pdf

首篇描述GAN的论文:

https://arxiv.org/pdf/1406.2661.pdf

2014年谷歌与斯坦福大学研究人员发表的关于GAN论文:

https://pdfs.semanticscholar.org/ceef/94e5e9b6188e9aca558efcf92e57ec987bc4.pdf

相关阅读

谷歌reCaptcha验证码服务再被攻破

文本验证已经过时 神经网络是验证码的大敌

 

申明:本文系厂商投稿收录,所涉观点不代表安全牛立场!


相关文章