编程 Python

python爬虫增加访问量的方法

Posted in Python onAugust 22, 2019

看着自己少得可怜的访问量，突然有一个想用爬虫刷访问量的想法，主要也是抱着尝试的心态，学习学习。

其实市面上有一些软件可以代刷流量比如流量精灵，使用感确实比我们自己写的代码要好一些

第一版：网上借鉴了一下以下代码运行在 python3

import urllib.request
import time
# 使用build_opener()是为了让python程序模仿浏览器进行访问
opener = urllib.request.build_opener()
opener.addheaders = [('User-agent', 'Mozilla/5.0')]
# 专刷某个页面
print('开始刷了哦：')
tempUrl = 'https://blog.csdn.net/Lin_QC/article/details/88966839'
for j in range(2000):
  try:
    opener.open(tempUrl)
    time.sleep(7)
    print('%d %s' % (j, tempUrl))
  except urllib.error.HTTPError:
    print('urllib.error.HTTPError')
    time.sleep(1)
  except urllib.error.URLError:
    print('urllib.error.URLError')
    time.sleep(1)

该代码主要就是利用爬虫打开网页来进行访问量的刷新，但是，该方法遇到了瓶颈，当刷新到一定访问量时，csdn的服务器会阻止该ip的访问，也就刷新不了访问量了。

所以，也就衍生了第二版。

我们可以在 https://www.xicidaili.com 网站上看到很多代理ip，使用这些代理ip，可以防止csdn服务器阻止访问。

首先，编写了一个获取代理ip的文件，经我本人实验，国内http代理ip较为稳定，所以我们爬取

'https://www.xicidaili.com/wt/1

页面的代理ip信息，并将它们存储在proxy文件里，以下代码是基于 python2的，注意不要弄错版本

proxy_IP.py文件

import urllib2
import BeautifulSoup
User_Agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0'
header = {}
header['User-Agent'] = User_Agent
url = 'https://www.xicidaili.com/wt/1'
req = urllib2.Request(url, headers=header)
res = urllib2.urlopen(req).read()
soup = BeautifulSoup.BeautifulSoup(res)
ips = soup.findAll('tr')
f = open("proxy", "w")
for x in range(1,len(ips)):
  ip = ips[x]
  tds = ip.findAll("td")
  ip_temp = tds[1].contents[0]+","+tds[2].contents[0]+"\n"
  print tds[1].contents[0]+"\t"+tds[2].contents[0]
  f.write(ip_temp)

通过执行以上代码，我们就可以获得大量代理ip，接下来就是使用这些ip进行对博客的访问。

csdnfake.py

import urllib2
import socket
import time
import random
socket.setdefaulttimeout(3)
user_agent_list = [
  'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
           'Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3',
  'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50',
  'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50',
  'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)',
  'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)',
  'Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1',
  'Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11',
  'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11',
  'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SE 2.X MetaSr 1.0; SE 2.X MetaSr 1.0; .NET CLR 2.0.50727; SE 2.X MetaSr 1.0)',
  'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0',
  'Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1',
]
f = open("proxy")
lines = f.readlines()
proxys = []
 
for i in range(0,len(lines)):
  ip = lines[i].strip().split(",")
  proxy_host = "http://"+ip[0]+":"+ip[1]
  print "http://"+ip[0]+":"+ip[1]
  proxy_temp = {"http": proxy_host}
  proxys.append(proxy_temp)
urls = {"https://blog.csdn.net/Lin_QC/article/details/88966839",
    "https://blog.csdn.net/Lin_QC/article/details/88930018",
    "https://blog.csdn.net/Lin_QC/article/details/88642949",
    "https://blog.csdn.net/Lin_QC/article/details/84568170",
    "https://blog.csdn.net/Lin_QC/article/details/84451279",
    "https://blog.csdn.net/Lin_QC/article/details/84927503",
    }
 
j=1
for i in range(100):
  for proxy in proxys:
    for url in urls:
      try:
        user_agent = random.choice(user_agent_list)
        proxy_support = urllib2.ProxyHandler(proxy)
        opener = urllib2.build_opener(proxy_support, urllib2.HTTPHandler)
        urllib2.install_opener(opener)
        req = urllib2.Request(url)
        c = urllib2.urlopen(req)
        print ("sucessful",j)
        j+=1
        time.sleep(5) 
      except Exception, e:
        print proxy
        print e
        continue

user_agent_list是一堆浏览器的代理头，可以模仿浏览器访问博客。

每次访问休息五秒，主要是因为过快的访问对csdn无效。

总结

以上所述是小编给大家介绍的python爬虫增加访问量的方法，希望对大家有所帮助，如果大家有任何疑问欢迎给我留言，小编会及时回复大家的！

python爬虫增加访问量的方法

- Author -

Lin_QC

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python编程语言的35个与众不同之处（语言特征和使用技巧）

Jul 07 Python

基于进程内通讯的python聊天室实现方法

Jun 28 Python

Python新手们容易犯的几个错误总结

Apr 01 Python

python正则中最短匹配实现代码

Jan 16 Python

Python Numpy 数组的初始化和基本操作

Mar 13 Python

Python cookbook(数据结构与算法)同时对数据做转换和换算处理操作示例

Mar 23 Python

Python使用min、max函数查找二维数据矩阵中最小、最大值的方法

May 15 Python

selenium+python 对输入框的输入处理方法

Oct 11 Python

python3.7环境下安装Anaconda的教程图解

Sep 10 Python

Python 项目转化为so文件实例

Dec 23 Python

python3.6环境下安装freetype库和基本使用方法(推荐)

May 10 Python

python热力图实现简单方法

Jan 29 Python

Python中字典与恒等运算符的用法分析

Aug 22 #Python

python实现通过flask和前端进行数据收发

Aug 22 #Python

python2.7的flask框架之引用js&css等静态文件的实现方法

Aug 22 #Python

PyQt+socket实现远程操作服务器的方法示例

Aug 22 #Python

使用python os模块复制文件到指定文件夹的方法

Aug 22 #Python

详解Django-channels 实现WebSocket实例

Aug 22 #Python

解决python3 requests headers参数不能有中文的问题

Aug 21 #Python

You might like

php生成短域名函数

2015/03/23 PHP

thinkphp中多表查询中防止数据重复的sql语句(必看)

2016/09/22 PHP

PHP数字前补0的自带函数sprintf 和number_format的用法(详解)

2017/02/06 PHP

Laravel 自动生成验证的实例讲解:login / logout

2019/10/14 PHP

PHP 出现 http500 错误的解决方法

2021/03/09 PHP

mouse_on_title.js

2006/08/25 Javascript

用js实现控制内容的向上向下滚动效果

2007/06/26 Javascript

兼容IE和Firefox火狐的上下、左右循环无间断滚动JS代码

2013/04/19 Javascript

获取非最后一列td值并将title设为该值的方法

2013/10/30 Javascript

bootstrap改变按钮加载状态

2014/12/01 Javascript

jQuery如何防止这种冒泡事件发生

2015/02/27 Javascript

JavaScript检查子字符串是否在字符串中的方法

2016/02/03 Javascript

JavaScript实现打开链接页面的方式汇总

2016/06/02 Javascript

Javascript中常用的检测方法小结

2016/10/08 Javascript

JS遍历对象属性的方法示例

2017/01/10 Javascript

vue-cli中的webpack配置详解

2017/09/25 Javascript

vue多级复杂列表展开/折叠及全选/分组全选实现

2018/11/05 Javascript

jquery validate 实现动态增加/删除验证规则操作示例

2019/10/28 jQuery

vue实现在线预览pdf文件和下载（pdf.js）

2019/11/26 Javascript

解决Vue使用bus总线时,第一次路由跳转时数据没成功传递问题

2020/07/28 Javascript

[01:01:18]VP vs NIP 2019国际邀请赛小组赛 BO2 第二场 8.15

2019/08/17 DOTA

[32:39]完美世界DOTA2联赛循环赛 Forest vs Inki BO2第一场 11.04

2020/11/04 DOTA

Python基于pillow判断图片完整性的方法

2016/09/18 Python

浅谈Django中的数据库模型类-models.py(一对一的关系)

2018/05/30 Python

解决Tensorflow安装成功,但在导入时报错的问题

2018/06/13 Python

详解Python3 基本数据类型

2019/04/19 Python

详解用python实现基本的学生管理系统(文件存储版)（python3）

2019/04/25 Python

python 实现在一张图中绘制一个小的子图方法

2019/07/07 Python

Python二次规划和线性规划使用实例

2019/12/09 Python

英国口碑最好的的维他命胶囊品牌：Myvitamins（有中文站）

2016/12/03 全球购物

高三自我鉴定怎么写

2013/10/19 职场文书

工资收入证明样本（5篇）

2014/09/16 职场文书

2015年度学校应急管理工作总结

2015/10/22 职场文书

2016七一建党节慰问信

2015/11/30 职场文书

会议承办单位欢迎词

2019/07/09 职场文书

完美处理python与anaconda环境变量的冲突问题

2021/04/07 Python