当前位置:网站首页 > 技术博客 > 正文

拖动验证码是什么原理



图1
验证码,主要是用于区分 人 与 机器人(robot)的行为而采取的防范自动化的产物,其类型可以分为 识别型行为类验证码
在这里插入图片描述

识别类验证码包括:若干个单一种类的字符,如大小写字母数字中文,有可能是以上一种以上的组合形式出现,为了增加识别的难度,往往采用变形字符、干扰线、点、模糊背景等策略,早期验证码的背景为单一的白色,且字符分布在一行,而现在的验证码图片中随机分布若干字符,字符颜色可能与背景图很接近,导致识别成功率较低。
在这里插入图片描述
如今的验证码往往采取多种类元素识别:即同时包括字符识别和图形识别,如上图所示的12306登录页面的验证码,其中字符变形且具有干扰线,采用传统的OCR识别技术已经不可能完成,只能通过机器学习或者人工打码平台实现识别。

滑动验证码1

在这里插入图片描述
下面说下行为验证码,主要包括 滑动型验证码(见上图)和点触验证码(见下图,其要求为依次点击图片中的文字 “背“、”磊”)。
在这里插入图片描述
对于点触验证码来说,点击操作仅仅是发送了字符坐标到服务器,则其自动化的关键在于识别(字符或圆点图形等),所以实现的方法也是机器学习或人工打码平台,也可以使用selenium操作浏览器实现。

而对于滑动验证码来说,主要分为两类:
(1)将包含缺口的图片还原完整;
(2)将滑块滑动到另一端。

从服务器对滑动行为的验证来看,滑动验证码才是真正的行为验证码,服务器往往结合前端JS脚本结合浏览器指纹判断滑动行为是人类还是机器人,所以实现其自动化必须用到浏览器(或者selenium、appium等),同时采取措施隐藏模拟浏览器的指纹,例如下面的python脚本可以隐藏selenium操控的chrome浏览器的指纹。

 

通过上面的方法,隐藏了模拟浏览器的指纹,后面要做的就是通过模拟人的行为操作滑块了,本文主要说明 还原包含缺口的图片的方法,另一类滑动验证码下次再写文章分析说明。
先说下自动化实现过程:
(1)图片获取
需要的4张图片包括:完整图片,包含缺口的图片,缺口图片及背景图,(如下图)。
图片获取方法,可以参考我的文章:爬虫实践之非静态图片获取
在这里插入图片描述
下面解释下滑动原理,参照上图,自己画的简化图,大家凑合看吧。主要是把缺口填充,即通过滑动块,使缺口从位置1到达位置2,其中位置2的最左端距离图片最左端的距离是d3,起始位置1的最左端距离图片最左端的距离是d2,那么需要滑动的距离就是二者的插值 d1 = d3 - d2
其中 d3 通过对比 完整图片和包含缺口(目标位置)的图片来识别和计算距离;
d2 通过对比缺口图片及背景图来识别和计算距离,也就是一张与原图片尺寸一样的空白背景图以及包含缺口起始位置的空白背景图之间的位置差。

(2)距离计算
这部分主要是通过对比两张图片在相同位置的像素差实现,当像素差值大于自定义的阈值(例如Threshold=50)时,就认为找到了分界点。
代码如下:

 
 

其中函数的参数 distance 为计算得到的距离 d1。加速和减速的分界点 mid 为总距离的4/5,通过改变 t 或者 a 的值,可以调节滑动速度,如果滑块超过位置2(ext < 0),则需要后退,轨迹列表track需要添加负值距离,同理,滑块未达位置2时,需要继续滑动,轨迹列表track需要添加正值距离。

(4)滑块拖动
本文主要通过 selenium 实现滑块拖动,对于移动端,可能需要借助 appnium 或者网易的 airtest 软件实现,代码如下:

 

由于各个网站的滑动验证码可能采用不同版本的极验验证码,其图片获取可能需要获取无序图片片段后,根据页面样式css文件重组为页面实际显示的图片,需要具体问题具体分析。

  • 上一篇: timeval和timespec
  • 下一篇: python 游戏编程入门
  • 版权声明


    相关文章:

  • timeval和timespec2025-03-29 15:30:02
  • 什么是csrf攻击,xss攻击2025-03-29 15:30:02
  • 游标sql语句2025-03-29 15:30:02
  • 线程中通信2025-03-29 15:30:02
  • seq2seq decoder2025-03-29 15:30:02
  • python 游戏编程入门2025-03-29 15:30:02
  • 文件对比工具 beyond compare2025-03-29 15:30:02
  • html表单总结2025-03-29 15:30:02
  • dd格式文件怎么打开2025-03-29 15:30:02
  • memset函数怎么用2025-03-29 15:30:02