编程 Python

Python 爬虫实现增加播客访问量的方法实现

Posted in Python onOctober 31, 2019

一、序言：

世界 1024 程序猿节日不加班，闲着没事儿。。。随手写了个播客访问量爬虫玩玩，访问量过万不是事儿！！！每个步骤注释都很清晰，代码仅供学习参考！

---- Nick.Peng

二、所需环境：

Python3.x
相关模块： requests、json、lxml、urllib、bs4、fake_useragent

三、增加Blog访问量代码如下：

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Author: Nick
# @Date:  2019-10-24 15:40:58
# @Last Modified by:  Nick
# @Last Modified time: 2019-10-24 16:54:31
import random
import re
import time
import urllib
import requests

from bs4 import BeautifulSoup
from fake_useragent import UserAgent

try:
  from lxml import etree
except Exception as e:
  import lxml.html
  # 实例化一个etree对象（解决通过from lxml import etree导包失败）
  etree = lxml.html.etree

# 实例化UserAgent对象，用于产生随机UserAgent
ua = UserAgent()


class BlogSpider(object):
  """
  Increase the number of CSDN blog visits.
  """

  def __init__(self):
    self.url = "https://blog.csdn.net/PY0312/article/list/{}"
    self.headers = {
      "Referer": "https://blog.csdn.net/PY0312/",
      "User-Agent": ua.random
    }
    self.firefoxHead = {
      "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0"}
    self.IPRegular = r"(([1-9]?\d|1\d{2}|2[0-4]\d|25[0-5]).){3}([1-9]?\d|1\d{2}|2[0-4]\d|25[0-5])"

  def send_request(self, num):
    """
    模拟浏览器发起请求
    :param num: num
    :return: html_str
    """
    html_str = requests.get(self.url.format(
      num), headers=self.headers).content.decode()
    # print(html_str)

    return html_str

  def parse_data(self, html_str):
    """
    用于解析发起请求返回的数据
    :param html_str:
    :return: each_page_urls
    """
    # 将返回的 html字符串 转换为 element对象，用于xpath操作
    element_obj = etree.HTML(html_str)
    # print(element_obj)

    # 获取每一页所有blog的url
    each_page_urls = element_obj.xpath(
      '//*[@id="mainBox"]/main/div[2]/div/h4/a/@href')
    # print(each_page_urls)

    return each_page_urls

  def parseIPList(self, url="http://www.xicidaili.com/"):
    """
    爬取最新代理ip，来源：西刺代理
    注意：西刺代理容易被封，如遇到IP被封情况，采用以下两种方法即可解决：
    方法一：请参考我上一篇博客《Python 实现快代理IP爬虫》 ===> 喜欢研究的同学，可参考对接此接口
    方法二：直接屏蔽掉此接口，不使用代理也能正常使用
    :param url: "http://www.xicidaili.com/"
    :return: 代理IP列表ips
    """
    ips = []
    request = urllib.request.Request(url, headers=self.firefoxHead)
    response = urllib.request.urlopen(request)
    soup = BeautifulSoup(response, "lxml")
    tds = soup.find_all("td")
    for td in tds:
      string = str(td.string)
      if re.search(self.IPRegular, string):
        ips.append(string)
    # print(ips)
    return ips

  def main(self, total_page, loop_times, each_num):
    """
    调度方法
    :param total_page: 设置博客总页数
    :param loop_times: 设置循环次数
    :param each_num: 设置每一页要随机挑选文章数
    :return:
    """
    i = 0
    # 根据设置次数，打开循环
    while i < loop_times:
      # 遍历，得到每一页的页码
      for j in range(total_page):
        # 拼接每一页的url，并模拟发送请求, 返回响应数据
        html_str = self.send_request(j + 1)

        # 解析响应数据，得到每一页所有博文的url
        each_page_urls = self.parse_data(html_str)

        # 调用parseIPList随机产生代理IP，防反爬
        # ips = self.parseIPList()
        # proxies = {"http": "{}:8080".format(
        #   ips[random.randint(0, 40)])}

        # 遍历，每一页随机挑选each_num篇文章
        for x in range(each_num):
          # 随机抽取每一页的一篇博文进行访问，防反爬
          current_url = random.choice(each_page_urls)
          status = True if requests.get(
            current_url, headers=self.headers).content.decode() else False
          print("当前正在访问的文章是：{}，访问状态：{}".format(current_url, status))
          time.sleep(1)  # 延时1秒，防反爬
        time.sleep(1)  # 延时1秒，防反爬
      i += 1


if __name__ == '__main__':
  bs = BlogSpider()
  bs.main(7, 200, 3) # 参数参照main方法说明，酌情设置

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

Python 爬虫实现增加播客访问量的方法实现

- Author -

Nick.Peng

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python实现的快速排序算法详解

Aug 01 Python

Win7下Python与Tensorflow-CPU版开发环境的安装与配置过程

Jan 04 Python

Python使用Pandas读写Excel实例解析

Nov 19 Python

使用pygame写一个古诗词填空通关游戏

Dec 03 Python

Python+opencv+pyaudio实现带声音屏幕录制

Dec 23 Python

用python解压分析jar包实例

Jan 16 Python

Python多线程获取返回值代码实例

Feb 17 Python

python numpy库linspace相同间隔采样的实现

Feb 25 Python

基于Python下载网络图片方法汇总代码实例

Jun 24 Python

浅谈django框架集成swagger以及自定义参数问题

Jul 07 Python

Python matplotlib图例放在外侧保存时显示不完整问题解决

Jul 28 Python

python 线程的五个状态

Sep 22 Python

基于Python+Appium实现京东双十一自动领金币功能

Oct 31 #Python

如何关掉pycharm中的python console(图解)

Oct 31 #Python

使用python实现男神女神颜值打分系统(推荐)

Oct 31 #Python

python实现根据文件格式分类

Oct 31 #Python

Python简易计算器制作方法代码详解

Oct 31 #Python

python3 pillow模块实现简单验证码

Oct 31 #Python

利用Python校准本地时间的方法教程

Oct 31 #Python

You might like

php批量上传的实现代码

2013/06/09 PHP

phpmailer发送gmail邮件实例详解

2013/06/24 PHP

检查用户名是否已在mysql中存在的php写法

2014/01/20 PHP

php获取本周星期一具体日期的方法

2015/04/20 PHP

PHP解决高并发的优化方案实例

2020/12/10 PHP

javascript firefox兼容ie的dom方法脚本

2008/05/18 Javascript

JQuery 前台切换网站的样式实现

2009/06/22 Javascript

高亮显示web页表格行的javascript代码

2010/11/19 Javascript

自定义ExtJS控件之下拉树和下拉表格附源码

2013/10/15 Javascript

jQuery实现响应浏览器缩放大小并改变背景颜色

2014/10/31 Javascript

JavaScript 异常处理详解

2015/02/06 Javascript

JS获取图片高度宽度的方法分享

2015/04/17 Javascript

jQuery判断指定id的对象是否存在的方法

2015/05/22 Javascript

在AngularJS中使用AJAX的方法

2015/06/17 Javascript

跟我学习javascript的垃圾回收机制与内存管理

2015/11/23 Javascript

JavaScript类型系统之布尔Boolean类型详解

2016/06/26 Javascript

AngularJS实现标签页的两种方式

2016/09/05 Javascript

js实现移动端轮播图效果

2020/12/09 Javascript

JavaScript寄生组合式继承实例详解

2018/01/06 Javascript

ES6 Object属性新的写法实例小结

2019/06/25 Javascript

layui加载数据显示loading加载完成loading消失的实例代码

2019/09/23 Javascript

Node.js 中判断一个文件是否存在

2020/08/24 Javascript

linux服务器快速卸载安装node环境(简单上手)

2021/02/22 Javascript

[01:07]2015国际邀请赛中国区预选赛精彩回顾

2015/06/15 DOTA

python实现堆栈与队列的方法

2015/01/15 Python

python通过get,post方式发送http请求和接收http响应的方法

2015/05/26 Python

HTML5之SVG 2D入门10—滤镜的定义及使用

2013/01/30 HTML / CSS

公司财务总监岗位职责

2013/12/14 职场文书

数控技术学生的自我评价

2014/02/15 职场文书

小学生国庆节演讲稿

2014/09/05 职场文书

党员批评与自我批评材料

2014/10/14 职场文书

办公室个人总结

2015/02/28 职场文书

离婚案件原告代理词

2015/05/23 职场文书

机器人瓦力观后感

2015/06/12 职场文书

劳动合同变更协议书范本

2019/04/18 职场文书

十大最帅动漫男主碓冰拓海上榜，第一是《灌篮高手》男主角

2022/03/18 日漫