python爬虫刷访问量 2019 7月


Posted in Python onAugust 01, 2019

看着自己少得可怜的访问量,突然有一个想用爬虫刷访问量的想法,主要也是抱着尝试的心态,学习学习。

其实市面上有一些软件可以代刷流量 比如 流量精灵,使用感确实比我们自己写的代码要好一些

第一版:网上借鉴了一下           以下代码运行在 python3

import urllib.request
import time
# 使用build_opener()是为了让python程序模仿浏览器进行访问
opener = urllib.request.build_opener()
opener.addheaders = [('User-agent', 'Mozilla/5.0')]

# 专刷某个页面
print('开始刷了哦:')
tempUrl = 'https://blog.csdn.net/Lin_QC/article/details/88966839'
for j in range(2000):
 try:
  opener.open(tempUrl)
  time.sleep(7)
  print('%d %s' % (j, tempUrl))
 except urllib.error.HTTPError:
  print('urllib.error.HTTPError')
  time.sleep(1)
 except urllib.error.URLError:
  print('urllib.error.URLError')
  time.sleep(1)

该代码主要就是利用爬虫打开网页来进行访问量的刷新,但是,该方法遇到了瓶颈,当刷新到一定访问量时,csdn的服务器会阻止该ip的访问,也就刷新不了访问量了。

所以,也就衍生了第二版。

我们可以在  https://www.xicidaili.com 网站上看到很多代理ip,使用这些代理ip,可以防止csdn服务器阻止访问。

首先,编写了一个获取代理ip的文件,经我本人实验,国内http代理ip较为稳定,所以我们爬取
'https://www.xicidaili.com/wt/1

页面的代理ip信息,并将它们存储在proxy文件里,以下代码是基于 python2的,注意不要弄错版本

proxy_IP.py文件
import urllib2
import BeautifulSoup

User_Agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0'
header = {}
header['User-Agent'] = User_Agent

url = 'https://www.xicidaili.com/wt/1'
req = urllib2.Request(url, headers=header)
res = urllib2.urlopen(req).read()
soup = BeautifulSoup.BeautifulSoup(res)
ips = soup.findAll('tr')
f = open("proxy", "w")
for x in range(1,len(ips)):
 ip = ips[x]
 tds = ip.findAll("td")
 ip_temp = tds[1].contents[0]+","+tds[2].contents[0]+"\n"

 print tds[1].contents[0]+"\t"+tds[2].contents[0]
 f.write(ip_temp)

通过执行以上代码,我们就可以获得大量代理ip,接下来就是使用这些ip进行对博客的访问。

csdnfake.py
import urllib2
import socket
import time
import random

socket.setdefaulttimeout(3)

user_agent_list = [
 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
      'Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3',
 'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50',
 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50',
 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)',
 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)',
 'Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1',
 'Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11',
 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11',
 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SE 2.X MetaSr 1.0; SE 2.X MetaSr 1.0; .NET CLR 2.0.50727; SE 2.X MetaSr 1.0)',
 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0',
 'Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1',
]
f = open("proxy")
lines = f.readlines()
proxys = []

for i in range(0,len(lines)):
 ip = lines[i].strip().split(",")
 proxy_host = "http://"+ip[0]+":"+ip[1]
 print "http://"+ip[0]+":"+ip[1]
 proxy_temp = {"http": proxy_host}
 proxys.append(proxy_temp)
urls = {"https://blog.csdn.net/Lin_QC/article/details/88966839",
  "https://blog.csdn.net/Lin_QC/article/details/88930018",
  "https://blog.csdn.net/Lin_QC/article/details/88642949",
  "https://blog.csdn.net/Lin_QC/article/details/84568170",
  "https://blog.csdn.net/Lin_QC/article/details/84451279",
  "https://blog.csdn.net/Lin_QC/article/details/84927503",
  }

j=1
for i in range(100):
 for proxy in proxys:
  for url in urls:
   try:
    user_agent = random.choice(user_agent_list)
    proxy_support = urllib2.ProxyHandler(proxy)
    opener = urllib2.build_opener(proxy_support, urllib2.HTTPHandler)
    urllib2.install_opener(opener)
    req = urllib2.Request(url)
    c = urllib2.urlopen(req)
    print ("sucessful",j)
    j+=1
    time.sleep(5) 
   except Exception, e:
    print proxy
    print e
    continue

user_agent_list是一堆浏览器的代理头,可以模仿浏览器访问博客。

每次访问休息五秒,主要是因为过快的访问对csdn无效。

效果,刷过访问量的博客和没刷的差距明显

总结

以上所述是小编给大家介绍的python爬虫刷访问量 2019 7月,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持!
如果你觉得本文对你有帮助,欢迎转载,烦请注明出处,谢谢!

Python 相关文章推荐
python中is与双等于号“==”的区别示例详解
Nov 21 Python
用TensorFlow实现戴明回归算法的示例
May 02 Python
Python字符串对象实现原理详解
Jul 01 Python
python pandas 时间日期的处理实现
Jul 30 Python
Python generator生成器和yield表达式详解
Aug 08 Python
Python爬虫 批量爬取下载抖音视频代码实例
Aug 16 Python
Python如何基于rsa模块实现非对称加密与解密
Jan 03 Python
使用Pytorch来拟合函数方式
Jan 14 Python
Python HTMLTestRunner库安装过程解析
May 25 Python
python如何编写win程序
Jun 08 Python
python中查看.db文件中表格的名字及表格中的字段操作
Jul 07 Python
Django如何在不停机的情况下创建索引
Aug 02 Python
用Cython加速Python到“起飞”(推荐)
Aug 01 #Python
Python爬取视频(其实是一篇福利)过程解析
Aug 01 #Python
flask框架jinja2模板与模板继承实例分析
Aug 01 #Python
Win10环境python3.7安装dlib模块趟过的坑
Aug 01 #Python
python爬虫解决验证码的思路及示例
Aug 01 #Python
Django多数据库的实现过程详解
Aug 01 #Python
Python解决pip install时出现的Could not fetch URL问题
Aug 01 #Python
You might like
2019十大人气国漫
2020/03/13 国漫
CodeIgniter与PHP5.6的兼容问题
2015/07/16 PHP
Extjs中通过Tree加载右侧TabPanel具体实现
2013/05/05 Javascript
js写的评论分页(还不错)
2013/12/23 Javascript
jquery解析JSON数据示例代码
2014/03/17 Javascript
js 采用delete实现继承示例代码
2014/05/20 Javascript
javascript 处理null及null值示例
2014/06/09 Javascript
JS常用函数使用指南
2014/11/23 Javascript
thinkphp 表名 大小写 窍门
2015/02/01 Javascript
js实现搜索框关键字智能匹配代码
2020/03/26 Javascript
javascript HTML5 canvas实现打砖块游戏
2020/06/18 Javascript
JavaScript递归操作实例浅析
2016/10/31 Javascript
Vue.js手风琴菜单组件开发实例
2017/05/16 Javascript
基于BootStrap实现简洁注册界面
2017/07/20 Javascript
使用JQ完成表格隔行换色的简单实例
2017/08/25 Javascript
vue + axios get下载文件功能
2019/09/25 Javascript
Vue解析剪切板图片并实现发送功能
2020/02/04 Javascript
vue中的使用token的方法示例
2020/03/10 Javascript
Vue2.x和Vue3.x的双向绑定原理详解
2020/11/05 Javascript
vue 组件基础知识总结
2021/01/26 Vue.js
Python的Flask框架的简介和安装方法
2015/11/13 Python
Python实现的批量修改文件后缀名操作示例
2018/12/07 Python
PyQt5 QTableView设置某一列不可编辑的方法
2019/06/25 Python
详解python pandas 分组统计的方法
2019/07/30 Python
图文详解Django使用Pycharm连接MySQL数据库
2019/08/09 Python
Python 中的pygame安装与配置教程详解
2020/02/10 Python
Python pexpect模块及shell脚本except原理解析
2020/08/03 Python
基于CSS3实现的漂亮Menu菜单效果代码
2015/09/10 HTML / CSS
amazeui模态框弹出后立马消失并刷新页面
2020/08/19 HTML / CSS
KEETSA环保床垫:更好的睡眠,更好的生活!
2016/11/24 全球购物
英国探险旅游专家:Explore
2018/12/20 全球购物
党的群众路线教育实践活动个人对照检查材料(教师)
2014/11/04 职场文书
简单的辞职信模板
2015/05/12 职场文书
2015年绩效考核工作总结
2015/05/23 职场文书
Python实现PIL图像处理库绘制国际象棋棋盘
2021/07/16 Python
教你一步步实现一个简易promise
2021/11/02 Javascript