编程 Python

python爬虫爬取幽默笑话网站

Posted in Python onOctober 24, 2019

爬取网站为：http://xiaohua.zol.com.cn/youmo/

查看网页机构，爬取笑话内容时存在如下问题：

1、每页需要进入“查看更多”链接下面网页进行进一步爬取内容每页查看更多链接内容比较多，多任务进行，这里采用线程池的方式，可以有效地控制系统中并发线程的数量。避免当系统中包含有大量的并发线程时，导致系统性能下降，甚至导致 Python 解释器崩溃，引入线程池，花费时间更少，更效率。

创建线程池threadpool.ThreadPool()
创建需要线程池处理的任务即threadpool.makeRequests()，makeRequests存放的是要开启多线程的函数，以及函数相关参数和回调函数，其中回调函数可以不写（默认是无）。
将创建的多个任务put到线程池中,threadpool.putRequest()
等到所有任务处理完毕theadpool.pool()

2、查看链接笑话页内容，div元素内部文本分布比较混乱。有的分布在<p>链接内有的属于div的文本，可采用正则表达式的方式解决。

注意2种获取元素节点的方式：

1）lxml获取节点字符串

res=requests.get(url,headers=headers)
html = res.text
 
lxml 获取节点写法
element=etree.HTML(html)
divEle=element.xpath("//div[@class='article-text']")[0]  # 获取div节点
div= etree.tostring(divEle, encoding = 'utf-8' ).decode('utf-8') # 转换为div字符串

2）正则表达式写法1，过滤回车、制表符和p标签

# 第一种方式：replace
content = re.findall('<div class="article-text">(.*?)</div>',html,re.S)
content = content[0].replace('\r','').replace('\t','').replace('<p>','').replace('</p>','').strip()

3）正则表达式写法2，过滤回车、制表符和p标签

# 第二种方式：sub
for index in range(len(content)):
  content[index] = re.sub(r'(\r|\t|<p>|<\/p>)+','',content[index]).strip()
 
list = ''.join(content)
print(list)

3、完整代码

index.py

import requests
import threadpool
import time
import os,sys
import re
from lxml import etree
from lxml.html import tostring
 
 
class ScrapDemo():
  next_page_url=""  #下一页的URL
  page_num=1 #当前页
  detail_url_list=0 #详情页面URL地址list
  deepth=0 #设置抓取的深度
  headers = {
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.84 Safari/537.36"
  }
  fileNum=0
 
  def __init__(self,url):
    self.scrapyIndex(url)
 
  def threadIndex(self,urllist): #开启线程池
    if len(urllist) == 0:
      print("请输入需要爬取的地址")
      return False
    ScrapDemo.detail_url_list=len(urllist)
    pool=threadpool.ThreadPool(len(urllist))
    requests=threadpool.makeRequests(self.detailScray,urllist)
    for req in requests:  
      pool.putRequest(req)
      time.sleep(0.5)
    pool.wait()
 
  def detailScray(self,url): # 获取html结构
    if not url == "":
      url='http://xiaohua.zol.com.cn/{}'.format(url)
      res=requests.get(url,headers=ScrapDemo.headers)
      html=res.text
      # element=etree.HTML(html)
      # divEle=element.xpath("//div[@class='article-text']")[0]  # Element div     
      self.downloadText(html) 
 
  def downloadText(self,ele): # 抓取数据并存为txt文件
    clist = re.findall('<div class="article-text">(.*?)</div>',ele,re.S)
    for index in range(len(clist)):
      '''
        正则表达式：过滤掉回车、制表符和p标签
      '''
      clist[index]=re.sub(r'(\r|\t|<p>|<\/p>)+','',clist[index]) 
    content="".join(clist)
    # print(content) 
    basedir=os.path.dirname(__file__)
    filePath=os.path.join(basedir)
    filename="xiaohua{0}-{1}.txt".format(ScrapDemo.deepth,str(ScrapDemo.fileNum))
    file=os.path.join(filePath,'file_txt',filename)
    try:
      f=open(file,"w")
      f.write(content)
      if ScrapDemo.fileNum == (ScrapDemo.detail_url_list - 1):
        print(ScrapDemo.next_page_url)
        print(ScrapDemo.deepth)
        if not ScrapDemo.next_page_url == "":
          self.scrapyIndex(ScrapDemo.next_page_url)
    except Exception as e:
      print("Error:%s" % str(e))
 
    ScrapDemo.fileNum=ScrapDemo.fileNum+1
    print(ScrapDemo.fileNum)
 
  def scrapyIndex(self,url): 
    if not url == "":
      ScrapDemo.fileNum=0
      ScrapDemo.deepth=ScrapDemo.deepth+1
      print("开启第{0}页抓取".format(ScrapDemo.page_num))
      res=requests.get(url,headers=ScrapDemo.headers)
      html=res.text
      element=etree.HTML(html)
      a_urllist=element.xpath("//a[@class='all-read']/@href") # 当前页所有查看全文
      next_page=element.xpath("//a[@class='page-next']/@href") # 获取下一页的url
      ScrapDemo.next_page_url='http://xiaohua.zol.com.cn/{}'.format(next_page[0])
      if not len(next_page) == 0 and ScrapDemo.next_page_url != url:
        ScrapDemo.page_num=ScrapDemo.page_num+1
        self.threadIndex(a_urllist[:]) 
      else:
        print('下载完成，当前页数为{}页'.format(ScrapDemo.page_num))
        sys.exit()

runscrapy.py

from app import ScrapDemo
url="http://xiaohua.zol.com.cn/youmo/"
ScrapDemo(url)

运行如下:

python爬虫爬取幽默笑话网站

总共1988个文件，下载完成。

python爬虫爬取幽默笑话网站

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

python爬虫爬取幽默笑话网站

- Author -

青辰啊

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python中使用装饰器来优化尾递归的示例

Jun 18 Python

Python获取指定文件夹下的文件名的方法

Feb 06 Python

python微信跳一跳系列之自动计算跳一跳距离

Feb 26 Python

详解Python用户登录接口的方法

Apr 17 Python

python通过paramiko复制远程文件及文件目录到本地

Apr 30 Python

python中类的输出或类的实例输出为这种形式的原因

Aug 12 Python

Python多线程及其基本使用方法实例分析

Oct 29 Python

python反转列表的三种方式解析

Nov 08 Python

python从内存地址上加载python对象过程详解

Jan 08 Python

Python切割图片成九宫格的示例代码

Mar 10 Python

Python 多线程C段扫描、检测 Ping扫描脚本的实现

Sep 03 Python

深入理解Pytorch微调torchvision模型

Nov 11 Python

python栈的基本定义与使用方法示例【初始化、赋值、入栈、出栈等】

Oct 24 #Python

python 队列基本定义与使用方法【初始化、赋值、判断等】

Oct 24 #Python

python单向链表的基本实现与使用方法【定义、遍历、添加、删除、查找等】

Oct 24 #Python

Windows下PyCharm2018.3.2 安装教程(图文详解)

Oct 24 #Python

python实现获取单向链表倒数第k个结点的值示例

Oct 24 #Python

python模块导入的方法

Oct 24 #Python

python读取word 中指定位置的表格及表格数据

Oct 23 #Python

You might like

php去掉文件前几行的方法

2015/07/29 PHP

php制作的简单验证码识别代码

2016/01/26 PHP

Smarty简单生成表单元素的方法示例

2016/05/23 PHP

JS 字符串连接[性能比较]

2009/05/10 Javascript

JQuery魔力之$("tagName")与selector

2012/03/05 Javascript

NodeJs中的非阻塞方法介绍

2012/06/05 NodeJs

JS文本框不能输入空格验证方法

2013/03/19 Javascript

Jquery绑定事件(bind和live的区别介绍)

2013/08/23 Javascript

jQuery的观察者模式详解

2014/12/22 Javascript

推荐10 款 SVG 动画的 JavaScript 库

2015/03/24 Javascript

js实现仿阿里巴巴城市选择框效果实例

2015/06/24 Javascript

jquery实现动静态条形统计图

2015/08/17 Javascript

JavaScript+html5 canvas制作的圆中圆效果实例

2016/01/27 Javascript

php register_shutdown_function函数详解

2017/07/23 Javascript

vue-cli配置文件——config篇

2018/01/04 Javascript

解决vue props 拿不到值的问题

2018/09/11 Javascript

解决在Vue中使用axios用form表单出现的问题

2019/10/30 Javascript

详解element上传组件before-remove钩子问题解决

2020/04/08 Javascript

js实现微信聊天效果

2020/08/09 Javascript

selenium 反爬虫之跳过淘宝滑块验证功能的实现代码

2020/08/27 Javascript

[06:44]2014DOTA2国际邀请赛-钥匙体育馆开战开幕式振奋人心

2014/07/19 DOTA

[52:22]EG vs VG Supermajor小组赛B组 BO3 第一场 6.2

2018/06/03 DOTA

python计算时间差的方法

2015/05/20 Python

Python工程师面试题与Python基础语法相关

2016/01/14 Python

python实现简单的购物程序代码实例

2020/03/03 Python

jupyter notebook 参数传递给shell命令行实例

2020/04/10 Python

Django中FilePathField字段的用法

2020/05/21 Python

CSS3 display知识详解

2015/11/25 HTML / CSS

CSS3实现时间轴效果

2016/07/11 HTML / CSS

苹果中国官方网站：Apple中国

2016/07/22 全球购物

Sunglasses Shop瑞典：欧洲领先的太阳镜网上商店

2018/04/22 全球购物

.NET remoting的两种通道是什么

2016/05/31 面试题

大学新学期计划书

2014/04/28 职场文书

小学生学习雷锋倡议书

2014/05/15 职场文书

工作简历自我评价

2015/03/11 职场文书

2015年学生会干事工作总结

2015/04/09 职场文书