Python3爬虫关于识别点触点选验证码的实例讲解_python

来源:脚本之家  责任编辑:小易  

要具体看是什么样的页面,静态页面可以直接按页码循环,js加载页面就要抓包分析,按请求参数循环www.zgxue.com防采集请勿采集本网。

上一节我们实现了极验验证码的识别,但是除了极验其实还有另一种常见的且应用广泛的验证码,比较有代表性的就是点触验证码。

data = urllib.parse.urlencode(values).encode(encoding='UTF8') 试下。

可能你对这个名字比较陌生,但是肯定见过类似的验证码,比如 12306,这就是一种典型的点触验证码,如图所示:

encoding(utf-8)是用来转化为utf-8编码方式的,一般编码的网站爬下来直接用Beautifulsoup解析即可,得到的编码方式一般为GBK或者utf-8,GBK就是专门的中文编码方式,utf-8为含有中文的编码方式,unicode是通用的编码方式,主要就这三种编码方式

018a2c46924f7b1536f5a647e66e19d.png

我们需要直接点击图中符合要求的图,如果所有答案均正确才会验证成功,如果有一个答案错误,验证就会失败,这种验证码就可以称之为点触验证码。

需求:从门户网站爬取新闻,将新闻标题,作者,时间,内容保存到本地txt中。 用到的python模块:import re # 正则表达式import bs4 # Beautiful Soup 4 解析模块import urllib2 # 网络访问模块import News #自己定义的新闻结构import codecs #解

另外还有一个专门提供点触验证码服务的站点,叫做 TouClick,其官方网站为:https://www.touclick.com/,本节就以它为例讲解一下此类验证码的识别过程。

廖雪峰老师的网上文字加少量视频 python3的入门级教程 和莫烦老师的视频教程

1. 本节目标

要具体问题具体分析的。看你要抓取什么数据。 最好能找到一个能够作为重复性区分的字段值。比如百度知道的所有提问,每个问题都有一个对应的id,楼主这个问题对应的id就是181730605611341844。那在爬取的过程中,可以将所有已经爬取的问题id保存

本节我们的目标是用程序来识别并通过点触验证码的验证。

2. 准备工作

本次我们使用的 Python 库是 Selenium,使用的浏览器为 Chrome,在此之前请确保已经正确安装好了 Selenium 库、Chrome浏览器并配置好了 ChromeDriver,相关流程可以参考第一章的说明。

3. 了解点触验证码

TouClick 官方网站的验证码样式如图 8-19 所示:

c2d4ad8c4f0400e0aaf2562dbb2dbba.png

和 12306 站点有相似之处,不过这次是点击图片中的文字,不是图片了,另外还有各种形形色色的点触验证码,其交互形式可能略有不同,但基本原理都是类似的。

接下来我们就来统一实现一下此类点触验证码的识别过程。

4. 识别思路

此种验证码的如果依靠图像识别的话识别难度非常之大。

例如就 12306 来说,其识别难点有两个点,第一点是文字识别,如图 8-20 所示:

a8ca608bae88401a810bdf35b9cf1fd.png

如点击图中所有的漏斗,“漏斗”二字其实都经过变形、放缩、模糊处理了,如果要借助于前面我们讲的 OCR 技术来识别,识别的精准度会大打折扣,甚至得不到任何结果。第二点是图像的识别,我们需要将图像重新转化文字,可以借助于各种识图接口,可经我测试识别正确结果的准确率非常低,经常会出现匹配不正确或匹配不出结果的情况,而且图片本身的的清晰度也不够,所以识别难度会更大,更何况需要同时识别出八张图片的结果,且其中几个答案需要完全匹配正确才能验证通过,综合来看,此种方法基本是不可行的。

再拿 TouClick 来说,如图所示:

198a07f9eaa25def2fd353d9af22b99.png

我们需要从这幅图片中识别出植株二字,但是图片的背景或多或少会有干扰,导致 OCR 几乎不会识别出结果,有人会说,直接识别白色的文字不就好了吗?但是如果换一张验证码呢?如图 8-22 所示:

ca1e7d50d2a63914e072c728013dd01.png

这张验证码图片的文字又变成了蓝色,而且还又有白色阴影,识别的难度又会大大增加。

那么此类验证码就没法解了吗?答案当然是有,靠什么?靠人。

靠人解决?那还要程序做什么?不要急,这里说的人并不是我们自己去解,在互联网上存在非常多的验证码服务平台,平台 7×24 小时提供验证码识别服务,一张图片几秒就会获得识别结果,准确率可达 90% 以上,但是就需要花点钱来购买服务了,毕竟平台都是需要盈利的,不过不用担心,识别一个验证码只需要几分钱。

在这里我个人比较推荐的一个平台是超级鹰。

其提供的服务种类非常广泛,可识别的验证码类型非常多,其中就包括此类点触验证码。

另外超级鹰平台同样支持简单的图形验证码识别,如果 OCR 识别有难度,同样可以用本节相同的方法借助此平台来识别,下面是此平台提供的一些服务:

英文数字,提供最多20位英文数字的混合识别

中文汉字,提供最多7个汉字的识别

纯英文,提供最多12位的英文的识别

纯数字,提供最多11位的数字的识别

任意特殊字符,提供不定长汉字英文数字、拼音首字母、计算题、成语混合、 集装箱号等字符的识别

坐标选择识别,如复杂计算题、选择题四选一、问答题、点击相同的字、物品、动物等返回多个坐标的识别

而本节我们需要解决的就是属于最后一类,坐标多选识别的情况,我们需要做的就是将验证码图片提交给平台,然后平台会返回识别结果在图片中的坐标位置,接下来我们再解析坐标模拟点击就好了。

原理非常简单,下面我们就来实际用程序来实验一下。

5. 注册账号

在开始之前,我们需要先注册一个超级鹰账号并申请一个软件ID,注册页面链接为:https://www.chaojiying.com/user/reg/,注册完成之后还需要在后台开发商中心添加一个软件ID,最后一件事就是充值一些题分,充值多少可以根据价格和识别量自行决定。

6. 获取API

做好上面的准备工作之后我们就可以开始用程序来对接验证码的识别了。

首先我们可以到官方网站下载对应的 Python API,链接为:https://www.chaojiying.com/api-14.html,但是此 API 是Python2 版本的,是用 Requests 库来实现的,我们可以简单更改几个地方即可将其修改为 Python3 版本。

修改之后的API如下:

import requestsfrom hashlib import md5class Chaojiying(object):    def __init__(self, username, password, soft_id):        self.username = username        self.password = md5(password.encode('utf-8')).hexdigest()        self.soft_id = soft_id        self.base_params = {            'user': self.username,            'pass2': self.password,            'softid': self.soft_id,        }        self.headers = {            'Connection': 'Keep-Alive',            'User-Agent': 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0)',        }    def post_pic(self, im, codetype):        """        im: 图片字节        codetype: 题目类型 参考 http://www.chaojiying.com/price.html        """        params = {            'codetype': codetype,        }        params.update(self.base_params)        files = {'userfile': ('ccc.jpg', im)}        r = requests.post('http://upload.chaojiying.net/Upload/Processing.php', data=params, files=files,         headers=self.headers)        return r.json()    def report_error(self, im_id):        """        im_id:报错题目的图片ID        """        params = {            'id': im_id,        }        params.update(self.base_params)        r = requests.post('http://upload.chaojiying.net/Upload/ReportError.php', data=params, headers=self.headers)        return r.json()

这里定义了一个 Chaojiying 类,其构造函数接收三个参数,分别是超级鹰的用户名、密码以及软件ID,保存好以备使用。

接下来是最重要的一个方法叫做 post_pic(),这里需要传入图片对象和验证码的代号,该方法会将图片对象和相关信息发给超级鹰的后台进行识别,然后将识别成功的 Json 返回回来。

另一个方法叫做 report_error(),这个是发生错误的时候的回调,如果验证码识别错误,调用此方法会返还相应的题分。

接下来我们以 TouClick 的官网为例来进行演示点触验证码的识别过程,链接为:http://admin.touclick.com/,如果没有注册账号可以先注册一个。

7. 初始化

首先我们需要初始化一些变量,如 WebDriver、Chaojiying对象等等,代码实现如下:

EMAIL = 'cqc@cuiqingcai.com'PASSWORD = ''# 超级鹰用户名、密码、软件ID、验证码类型CHAOJIYING_USERNAME = 'Germey'CHAOJIYING_PASSWORD = ''CHAOJIYING_SOFT_ID = 893590CHAOJIYING_KIND = 9102class CrackTouClick():    def __init__(self):        self.url = 'http://admin.touclick.com/login.html'        self.browser = webdriver.Chrome()        self.wait = WebDriverWait(self.browser, 20)        self.email = EMAIL        self.password = PASSWORD        self.chaojiying = Chaojiying(CHAOJIYING_USERNAME, CHAOJIYING_PASSWORD, CHAOJIYING_SOFT_ID)

这里的账号和密码请自行修改。

8. 获取验证码

接下来的第一步就是完善相关表单,然后模拟点击呼出验证码,此步非常简单,代码实现如下:

def open(self):    """    打开网页输入用户名密码    :return: None    """    self.browser.get(self.url)    email = self.wait.until(EC.presence_of_element_located((By.ID, 'email')))    password = self.wait.until(EC.presence_of_element_located((By.ID, 'password')))    email.send_keys(self.email)    password.send_keys(self.password)def get_touclick_button(self):    """    获取初始验证按钮    :return:    """    button = self.wait.until(EC.element_to_be_clickable((By.CLASS_NAME, 'touclick-hod-wrap')))    return button

在这里 open() 方法负责填写表单,get_touclick_button() 方法则是获取验证码按钮,随后触发点击即可。

接下来我们需要类似上一节极验验证码图像获取一样,首先获取验证码图片的位置和大小,随后从网页截图里面截取相应的验证码图片就好了。代码实现如下:

def get_touclick_element(self):    """    获取验证图片对象    :return: 图片对象    """    element = self.wait.until(EC.presence_of_element_located((By.CLASS_NAME, 'touclick-pub-content')))    return elementdef get_position(self):    """    获取验证码位置    :return: 验证码位置元组    """    element = self.get_touclick_element()    time.sleep(2)    location = element.location    size = element.size    top, bottom, left, right = location['y'], location['y'] + size['height'], location['x'], location['x'] + size[        'width']    return (top, bottom, left, right)def get_screenshot(self):    """    获取网页截图    :return: 截图对象    """    screenshot = self.browser.get_screenshot_as_png()    screenshot = Image.open(BytesIO(screenshot))    return screenshotdef get_touclick_image(self, name='captcha.png'):    """    获取验证码图片    :return: 图片对象    """    top, bottom, left, right = self.get_position()    print('验证码位置', top, bottom, left, right)    screenshot = self.get_screenshot()    captcha = screenshot.crop((left, top, right, bottom))    return captcha

在这里 get_touclick_image() 方法即为从网页截图中截取对应的验证码图片,其中验证码图片的相对位置坐标由 get_position() 方法返回得到,最后我们得到的是一个 Image 对象。

9. 识别验证码

随后我们调用 Chaojiying 对象的 post_pic() 方法即可把图片发送给超级鹰后台,在这里发送的图像是字节流格式,代码实现如下:

image = self.get_touclick_image()bytes_array = BytesIO()image.save(bytes_array, format='PNG')# 识别验证码result = self.chaojiying.post_pic(bytes_array.getvalue(), CHAOJIYING_KIND)print(result)

这样运行之后 result 变量就是超级鹰后台的识别结果,可能运行需要等待几秒,毕竟后台还有人工来完成识别。

返回的结果是一个 Json,如果识别成功后一个典型的返回结果类似如下:

{'err_no': 0, 'err_str': 'OK', 'pic_id': '6002001380949200001', 'pic_str': '132,127|56,77', 'md5': '1f8e1d4bef8b11484cb1f1f34299865b'}

其中 pic_str 就是识别的文字的坐标,是以字符串形式返回的,每个坐标都以 | 分隔,所以接下来我们只需要将其解析之后再模拟点击即可,代码实现如下:

def get_points(self, captcha_result):    """    解析识别结果    :param captcha_result: 识别结果    :return: 转化后的结果    """    groups = captcha_result.get('pic_str').split('|')    locations = [[int(number) for number in group.split(',')] for group in groups]    return locations def touch_click_words(self, locations):    """    点击验证图片    :param locations: 点击位置    :return: None    """    for location in locations:        print(location)        ActionChains(self.browser).move_to_element_with_offset(self.get_touclick_element(), location[0],         location[1]).click().perform()        time.sleep(1)

在这里我们用 get_points() 方法将识别结果变成了列表的形式,最后 touch_click_words() 方法则通过调用 move_to_element_with_offset() 方法依次传入解析后的坐标,然后点击即可。

这样我们就可以模拟完成坐标的点选了,运行效果如图所示:

4f2df8854a82238ebc24cf8a80d658f.png

最后我们需要做的就是点击提交验证的按钮等待验证通过,再点击登录按钮即可成功登录,后续实现在此不再赘述。

这样我们就借助于在线验证码平台完成了点触验证码的识别,此种方法也是一种通用方法,用此方法来识别 12306 等验证码也是完全相同的原理。

10. 本节代码

本节代码地址为:https://github.com/Python3WebSpider/CrackTouClick

11. 结语

本节我们通过在线打码平台辅助完成了验证码的识别,这种识别方法非常强大,几乎任意的验证码都可以识别,如果遇到难题,借助于打码平台无疑是一个极佳的选择。

\xa0 是不间断空白符2113 我们通常所用的5261空格是 \x20 ,是在标准ASCII可见字符4102 0x20~0x7e 范围内。 而 \xa0 属于 latin1 (ISO/IEC_8859-1)中的扩展字符集1653字符,代表空白符nbsp(non-breaking space)。 latin1 字符集向下兼容 ASCII ( 0x20~0x7e )。通常我们见到的字符多数是 latin1 的,比如在 MySQL 数据库中。 有如下信息:'T-shirt\xa0\xa0短袖圆领衫,体恤衫\xa0,', 'V-neck\xa0\xa0V型领\xa0sleeve\xa0\xa0袖子\xa0,',1我们如何将其中的\xz0去掉呢,试了re模块的sub方法,发现没有作用,于是又开始查阅相关资料,终于解决了该问题。方法如下:>>> inputstring = u'\n Door:\xa0Novum \t '>>> move = dict.fromkeys((ord(c) for c in u"\xa0\n\t"))>>> output = inputstring.translate(move)>>> output' Door:Novum '12345另外还有一种更简单的方法,利用split方法:>>> s'T-shirt\xa0\xa0短袖圆领衫,体恤衫\xa0'>>> out = "".join(s.split())>>> out'T-shirt短袖圆领衫,体恤衫'本回答被网友采纳,转成str,然后直接截取:ss.encode("utf-8") #转成stroutdata = ss[2:]内容来自www.zgxue.com请勿采集。


  • 本文相关:
  • python3爬虫关于识别检验滑动验证码的实例
  • python3爬虫中识别图形验证码的实例讲解
  • python3网络爬虫开发实战之极验滑动验证码的识别
  • python直接访问私有属性的简单方法
  • python读取word文本操作详解
  • python微信库:itchat的用法详解
  • python3学习笔记之多进程分布式小例子
  • keras中的卷积层&池化层的用法
  • python sqlite3查询操作过程解析
  • python生成密码库功能示例
  • series和dataframe使用简单入门
  • python3发送request请求及查看返回结果实例
  • python面向对象程序设计之私有变量,私有方法原理与用法分析
  • python3爬虫爬出的文本如何去掉\n\xa0
  • python3爬虫
  • python3爬取的数据怎么导入mysql
  • python3 爬虫怎么设置cookies
  • python3爬虫POST传递参数问题
  • python3爬虫urllib.request.urlopen("网址").read(...
  • python3 怎么爬取新闻网站
  • python3爬虫入门教程
  • python3 爬取的网址列表怎么去重
  • 请问谁知道现在搜狗反爬的机制。。。Python3
  • 网站首页网页制作脚本下载服务器操作系统网站运营平面设计媒体动画电脑基础硬件教程网络安全vbsdos/bathtahtcpythonperl游戏相关vba远程脚本coldfusionruby专题autoitseraphzonepowershelllinux shellluagolangerlang其它首页python3爬虫关于识别检验滑动验证码的实例python3爬虫中识别图形验证码的实例讲解python3网络爬虫开发实战之极验滑动验证码的识别python直接访问私有属性的简单方法python读取word文本操作详解python微信库:itchat的用法详解python3学习笔记之多进程分布式小例子keras中的卷积层&池化层的用法python sqlite3查询操作过程解析python生成密码库功能示例series和dataframe使用简单入门python3发送request请求及查看返回结果实例python面向对象程序设计之私有变量,私有方法原理与用法分析python入门教程 超详细1小时学会python 列表(list)操作方法详解python 元组(tuple)操作详解pycharm 2020最新永久激活码(附python 字典(dictionary)操作详解pycharm 使用心得(一)安装和首python strip()函数 介绍python 中文乱码问题深入分析python中使用xlrd、xlwt操作excepython科学计算环境推荐——anacdataframe中的object转换成float的方法浅析python中while循环和for循环pycharm 使用 pipenv 新建的虚拟环境(图文浅谈对pytroch中torch.autograd.backwardpython里运用私有属性和方法总结python event事件、进程池与线程池、协程python实现按长宽比缩放图片python 字典 按key值大小 倒序取值的实例python2和python3在处理字符串上的区别详python中处理时间的几种方法小结
    免责声明 - 关于我们 - 联系我们 - 广告联系 - 友情链接 - 帮助中心 - 频道导航
    Copyright © 2017 www.zgxue.com All Rights Reserved