财经/ 汽车/ 科技/ 数码/ 游戏/ 留学/ 财经中心

一秒分辨出孪生明星:这个黑产居然用AI来"打码"

2017-07-15 18:46:00 雷锋网 分享
参与

  今天中午,宅宅新来的同事“宅二妹”提议来一局“大家来找茬”升级版的游戏。

  本着吃完了饭没事做的诚实本能,我敷衍地答应了,毕竟像宅宅的这种火眼金睛十级选手,呵呵,开玩笑呢,来吧,卢瑟!

然后,宅二妹丢出了一张图像,一脸神秘的微笑:

  请找出图中的白百何

还好之前白百何出了大新闻,看上去不是特别难。宅宅迅速地找了出来:

=============分页符=============

  然后,宅二妹让我进入第二关:

  请分辨出这里的杨臣刚、王大治和孙楠

你厉害,我服气。十级选手在这道题面前也阵亡了……

宅二妹说,你不要伤心,其实第三关更难。

  什么?还有变态的第三关?

宅二妹抖抖索索地拿出了一张终极大图:

请找出这里的C杯?

  这……

  我……

真是一个悲伤的游戏。

=============分页符=============

  “晒密”和“打码”是什么鬼?

  更悲伤的是,这种奇葩的“大家来找茬”的类似版其实频频在一些更奇葩的验证码中出现过,比如被全国人民在热门时间集体迁徙时开怼的12306。

  对于“验证码”,大家并不陌生。在登录各网站、平台、APP时,经常见到。常见的“验证码”有“字符式”、“字符+点选式”、“滑块拼图式”和难度逆天的“12306式”。

▲字符式

▲字符+点选式

▲滑块拼图式

▲12306式

  验证码(CAPTCHA),大家都在生活中或多或少地遇到过,但你可能不知道的是,它本质上是区分计算机和人类的一种程序算法,简单解释是一个答题的验证。系统向请求发起方提问,能正确回答的即是人类,反之则为机器。

  不过,允许宅宅先吐个糟,如果是宅二妹给出的那种验证方式+平常12306的一些诡异验证,我真的深深怀疑自己是个机器人。

=============分页符=============

  不过,吐槽归吐槽。

  从安全角度看,CAPTCHA 经过不断演化,已成为目前国内外各大互联网公司用于对抗网络黑产恶意行为(如恶意登录)的验证码安全策略,即现在俗称的验证码系统。

  简而言之,验证码能帮助区分访问者是不是人类,从而有效对抗大面积的机器访问。

  不过,也许你要问,这和黑产有什么关系?

  在网络黑产中,不法分子窃取网站数据库后,需要确认帐号对应的密码是否正确,将有价值的数据通过验证的方式筛选出来,这一过程叫“晒密”,即撞库。

  而“晒密”最核心的障碍就是互联网公司设置的验证码安全体系。每天面对数以亿计的“晒密”需求,黑产分子不可能人工逐个识别,而是需要提高“晒密”效率,批量识别。

  “打码平台”这一专业服务便应运而生。

  不要误会,并不是下面这种手残的打码。

“打码平台”通常会与“晒密”软件作者合作:

  1) 黑产团伙把盗取的帐号密码信息导入到“晒密”软件,“晒密”软件模拟登录协议,向互联网公司服务器发送登录请求。

  2) 服务器检测到登录异常时,会下发验证码,进行安全策略拦截。

  3) “晒密”软件将收到的验证码图片发送给“打码平台”,请求将图片转化为字符。

  4) 打码平台后台破解验证码,将字符结果返回“晒密”软件,完成“晒密”(撞库)流程。

  5) 这些“晒密”后得到的用户信息,则可能被骗子直接用于实施诈骗犯罪。

  “快啊答题”背后的产业链

  最近,市面上最大打码平台“快啊答题”被警方一窝端掉,“快啊答题”打码平台所涉及的从撞库到晒密再到打码的整个黑色产业链被网络安全专家一一解析:

▲“撞库→晒密→打码”产业链 示例图

  早期的打码平台,对验证码的识别基本是通过“人工+ OCR 降维识别图片”完成。但是,互联网公司的验证码安全策略升级后,包括出现像 12306 这样识别难度高的验证码体系,“人工+OCR”方式的识别效率降低、成本升高,一段时期内,确实降低了黑产犯罪。

  但是,黑产人员并不会因为一条路被堵死,就放弃犯罪,他们又想出了更前沿的手法来应对。

  目前市面上最大的“快啊答题”打码平台就是典型代表,他们运用目前最流行的人工智能 AI 技术训练机器,大大提高了识别验证码的精准度,也极大提升了犯罪嫌疑人在单位时间内识别验证码的数量。

  通过“快啊答题”打码平台管理后台的统计信息显示,其 2017 年一季度破解验证码 259 亿次,总累计破解验证码 1200 亿次。这套 AI 系统识别验证码成功率非常高,以下图红框标识处为例,当天的整体识别率会输出成日志文件,通过随机调取某日的日志文件,该日整体验证码识别率高达 83.4%。

  “快啊答题”打码平台基于主流 AI 深度学习 Caffe 框架,使用 vgg16 卷积核神经网络模型,可以直接输入原始图像(避免了对图像的复杂前期预处理),并能通过深度的机器学习来获得较高的验证码识别率。

=============分页符=============

▲分布式 AI 验证码识别系统简易流程介绍

  由于不同方式生成的验证码风格迥异,且经常变换,为了实现精准识别,提高准确度,“快啊答题”收集了大量不同风格的样本,并开发了验证码接收与分发模块,输入端对接打码平台,输出端根据验证码类型轮询选择并推送到相应的验证码识别模型,验证码识别完成,返回验证码字符串到打码平台,打码平台确认是否识别正确,并将结果反馈至该分布式AI验证码识别系统进行进一步优化。

▲ 图为识别平台自身的管理界面

  1、生成方法

  打码平台犯罪团伙通过以下步骤,迅速低成本地获得海量验证码训练数据:

  (1)从互联网公开渠道获取字体样本,输出数字、字母、字母+数字、中文等不同类型验证码识别模型,获得的公开字体库,并且搜集背景图片,如壁纸/风景类图片。

  (2)通过工具将不同字体的验证码进行加工处理(加干扰、变形等)后,写入到背景图片中,生成带标定的训练样本。

  由于目标问题是不定长度的字符序列识别,生成的训练样本的字符个数也是不定长度的,可以是1-6个任意字符,最多支持6个标签的识别。黑产人员用一系列的验证码生成工具,来生成不同风格的验证码图片,如下图:

▲ 作者通过工具生成的训练样本示例

  (3)打码平台犯罪团伙基于收集到的超过10000个字体库,通过网络采集和字库背景生成训练样本,针对验证码识别业务,积累超过 5000 万的样本库,覆盖常见验证码模型。由此训练得到的模型具有非常强的适用性,即便新型的验证码变种,也可达到较高识别率。

  2、多标签训练

  “快啊答题”打码平台的AI系统,能将一张验证码图片作为一个整体,将单字识别转换成单图多标签、端到端的识别出验证码中的所有字符。

  针对网络上主流验证码图片一般不超过 6 个字符的特点,该AI系统设计6个标签的分类,对少于 6 个字符的验证码图片,未含字符的标签会判定为负样本不予输出。因此,最终的输出结果只包含给定字符的有效标签。

  也就是,原本的OCR识别只能简单识别图形上的文字,而在文字变化后识别率就大大降低。而使用Caffe框架,就可以对图形内的局部特征进行分类提取。

  “快啊答题”打码平台基于海量训练样本,建立了多标签分类网络来训练验证码的识别网络。汉字的网络训练周期为1个月左右,而英文+数字的网络训练周期则只需要1个星期。

  另外,“快啊答题”打码平台还会通过搜集反馈回来的失败样本,以及人工打码的标定数据,来实时训练和更新识别网络,不断迭代训练进行优化,进一步提高神经网络模型的识别能力。

  然后,他们就被抓了

  在以往的对抗黑产过程中,由于犯罪行为认定、法律适用等问题,即使对下游从事诈骗的团伙开展打击,但在针对“打码平台”这一犯罪上游环节上,能真正认定为共同犯罪,形成的实际判例非常少,无法实现全链条打击。

  下游团伙借助“打码平台”死灰复燃,也是多类网络黑灰产屡禁不止的原因之一。在市场上,“快啊答题”打码平台通过对接晒密软件,以15元/10000验证码的价格,收取下游使用晒密软件的黑产犯罪团伙费用,而后再按比例进行分成。

  像“快啊答题”这类的打码平台,不仅破坏了互联网公司的验证码安全体系,也直接或间接的为更多网络黑产提供了帮助。

  最后,“快啊答题”平台负责人及核心人员被公安机关以提供侵入、非法控制计算机信息系统程序工具罪批准逮捕。雷锋网注:腾讯守护者计划安全团队协助警方打掉市面上最大打码平台“快啊答题”,挖掘出一条从撞库盗号、破解验证码到贩卖公民信息、实施网络诈骗的全链条黑产。该资料由腾讯守护者计划安全团队提供给雷锋网,雷锋网编辑并补充了部分资料。

责编:梁爽