python爬虫刷博客访问量教程三:使用Selenium让Chrome浏览器自动化

2018年3月22日 2 条评论 2.08k 次阅读 0 人点赞

一、前言

前面两篇文章介绍了两种简单的刷流量方法,但是在实际应用上总会碰到许许多多的问题。比如,《python爬虫刷博客访问量教程二:欺骗第三方统计服务》的方法不是很完美,很多大型网站请求数非常多,请求的数据也许会加密混淆,这样的话,逐一分析会浪费很多时间。而且前面两种方法还不是模拟真正的浏览器,这时,就有了浏览器自动化的需求。使用代码控制浏览器访问某个链接,甚至可以设置不同的代理。这样不仅能够使网站的资源请求完整,还能节省很多工作量。这样做的缺点就是,速度慢,不能后台运行。而且网站打开速度取决于代理的速度。

二、安装必要插件

测试环境:Windows 10 + python 3.6.2

 

1. 安装Selenium

2. 安装Requests

3. 安装配置Chrome WebDriver

每个版本支持的chrome版本是不一样的,必须要用支持的版本才能驱动浏览器。

官方网站被墙,用这个镜像可以下载全版本的:http://npm.taobao.org/mirrors/chromedriver

下面给出的是目前最新的2.3.7版本,支持的chrome版本是v64-66。其他版本可以自行去下载。

Windows版本: chromedriver_win32

chromedriver版本 支持的Chrome版本
v2.37 v64-66
v2.36 v63-65
v2.35 v62-64
v2.34 v61-63
v2.33 v60-62
v2.32 v59-61
v2.31 v58-60
v2.30 v58-60
v2.29 v56-58
v2.28 v55-57
v2.27 v54-56
v2.26 v53-55
v2.25 v53-55
v2.24 v52-54
v2.23 v51-53
v2.22 v49-52
v2.21 v46-50
v2.20 v43-48
v2.19 v43-47
v2.18 v43-46
v2.17 v42-43
v2.13 v42-45
v2.15 v40-43
v2.14 v39-42
v2.13 v38-41
v2.12 v36-40
v2.11 v36-40
v2.10 v33-36
v2.9 v31-34
v2.8 v30-33
v2.7 v30-33
v2.6 v29-32
v2.5 v29-32
v2.4 v29-32

 

Windows 安装方法:

下载压缩包,解压到任意文件夹,将该文件夹添加到系统PATH环境变量中。

Linux 安装方法:

把解压的文件放到 /usr/bin 目录下,并且修改好权限。

 

三、代码测试

 

目标:使用代码控制浏览器访问指定的链接。并且每次访问使用不同的代理。

 

代理:同样使用的是大象代理的api接口提取代理IP

 

 

效果图:

 

这段代码稳定性还不错,超时等错误就会重启脚本继续获取新的代理IP。保证脚本能够长时间运行。

 

 

系列教程:

python爬虫刷博客访问量教程二:欺骗第三方统计服务

python爬虫刷博客访问量教程一:直接请求

 

平兄

做任何一件事情,计划和努力应当留给自己看,成果才适合秀给他人看。

文章评论(2)

  • someone

    github 上瞎逛碰到校友的网站了。。。

    2018年3月23日
    • pingxiong

      @someone 学长??

      2018年3月23日