GAN就对了：基于文本的验证码已经成为末路

作者：nana 日期：2018年12月13日阅：5,565

即便你厌烦分辨CAPTCHA图形网格中的汽车、路标和其他物体，也要努力习惯挑出这些图形验证码，基于文本的人机测试被AI软件机器人打败，主流网站门户大开，基于文本的验证码已经成为末路。

CAPTCHA是“区分计算机与人类的全自动图灵测试”的首字母缩写。CAPTCHA测试用于分辨软件机器人和人类，很多互联网用户对此应该非常熟悉了。

CAPTCHA并非完美无瑕，这也是为什么Facebook之类的公司经常清理虚假账户的原因所在。而机器学习与图像识别技术的不断发展，又令设计能挡住软件机器人而让人类通过的谜题更加困难了。

英国兰卡斯特大学、美国西北大学和中国北京大学的研究人员设计出了一种方法，可以创建文本CAPTCHA求解器，令自动化解密文本描述变成小菜一碟。

今年10月的第25届ACM计算与通信安全大会会议论文中，研究人员描述了他们的CAPTCHA破解系统，如今该论文已公开发表。

正如论文标题《另一种文本CAPTCHA求解器：基于生产对抗网络的方法》所揭示的，这些计算机科学家使用了GAN(生成性对抗网络)来教导他们的CAPTCHA生成器——用于其训练文本识别模型。

GAN的概念最初于2014年提出。GAN由2个互为对手的神经网络模型组成，其中一个模拟某物，而另一个专挑该模拟中的问题，直到再也识别不出该模拟与真实之间的区别。

很巧合地，谷歌和斯坦福大学的研究人员发表《好日子到头：文本CAPTCHA通用求解方法》也是在2014年。如今4年过去了，限制通用攻击的速度路障被扫清了。

GAN特别适合高效训练数据模型。研究人员运用GAN教导他们的CAPTCHA生成程序快速创建大量合成文本谜题，在用这些谜题训练他们的基本谜题求解模型。然后，研究人员通过学习迁移精调模型，用数量少得多(不足500个)的真实样本就能打败真正的文本谜题。

这些年出现了很多对文本CAPTCHA的攻击，但处理特定文本微调技术所需的攻击机制训练限制了攻击者响应CAPTCHA修改的速度。

论文中，研究人员解释道：

调整攻击试探方法或模型需要大量专家经验与知识，且数据收集与分类是个劳动密集和费时的过程。

虽然已经出现了几种通用攻击方法，这些方法却都只对相对简单的安全功能有效，比如背景噪音和单一字体。

研究人员认为，通过减少人力参与和创建针对性CAPTCHA求解器，他们的攻击对文本CAPTCHA产生了特别严重的威胁。

研究人员测试了33种基于文本的CAPTCHA方案，其中11种是今年4月时Alexa排名前50的网站使用的。仅仅不到50毫秒，仅仅利用一台台式机的GPU，研究人员就破解了这些CAPTCHA。

在有基于图像的CAPTCHA方法可用和谷歌10月翻新了reCaptcha技术的情况下，头脑正常的人谁还会继续使用基于文本的CAPTCHA呢？结果会继续使用的人还真不少，其中就有百度、eBay、谷歌、微软和维基百科。

但随着物体识别CAPTCHA也逐渐屈服于基于机器学习的攻击，或许是时候考虑图灵测试之外的人机区分方法了。

2018年10月第25届ACM计算机与通信安全大会上的论文：

首篇描述GAN的论文：

https://arxiv.org/pdf/1406.2661.pdf

2014年谷歌与斯坦福大学研究人员发表的关于GAN论文：

相关阅读

谷歌reCaptcha验证码服务再被攻破

关键词: