python爬虫刷博客访问量教程二:欺骗第三方统计服务

2018年2月20日 0 条评论 1.61k 次阅读 2 人点赞

前言

有些网站为了方便和减少开发工作,往往会使用第三方的统计服务。第三方服务作为插件的形式是无法通过直接请求提升访问量。往往把访问数据从前端发送到第三方服务后端进行统计。直接请求只是请求目标页面的内容,并不包括其中的引入的js和css等资源。

原理分析

先拿Wordpress举个例子,Wordpress后台有官网的一个统计服务。启用后,可以统计网站的访问数据。通过访问https://pingxonline.com博客中的文章,打开Chrome开发者工具寻找向其他网站发送的请求。

在这里发现一个特别的资源,还附带了一些关于博客的数据。到这里就可以知道,当我们访问带有追踪代码的页面时,页面中的追踪代码被执行,然后会向Wordpress服务器发送一个 1 像素的图片请求。为什么是图片?因为图片原生支持跨域。

可以从参数中比较直观的看出来,blog参数应该是我的博客在Wordpress注册的博客ID;而post参数就是帖子的意思了;rand参数是一个随机数,每次都是不一样的值。

那么我们是不是可以直接使用这些参数请求这个地址就可以使访问量提升?

测试环境

爬虫环境

Windows 10

python 3.6.2

python 代码

首先需要安装 python 的一个 Requests 扩展插件。

Requests 是用 Python 语言编写,基于 urllib,采用 Apache2 Licensed 开源协议的 HTTP 库。它比 urllib 更加方便,可以节约我们大量的工作,完全满足 HTTP 测试需求。

通过 pip 安装

或者,下载代码后安装:

 

源代码(使用代理)

下面的代码每秒发送一次请求给目标地址。如果Wordpress安装了缓存插件,则需要清除缓存才能看到最新的访问量。

关于代理:https://pingxonline.com/python%E7%88%AC%E8%99%AB%E5%88%B7%E5%8D%9A%E5%AE%A2%E8%AE%BF%E9%97%AE%E9%87%8F%E6%95%99%E7%A8%8B%E4%B8%80%EF%BC%9A%E7%9B%B4%E6%8E%A5%E8%AF%B7%E6%B1%82/

 

系列教程:

python爬虫刷博客访问量教程三:使用Selenium让Chrome浏览器自动化

python爬虫刷博客访问量教程一:直接请求

平兄

做任何一件事情,计划和努力应当留给自己看,成果才适合秀给他人看。

文章评论(0)