编程 Python

python爬虫爬取笔趣网小说网站过程图解

Posted in Python onNovember 18, 2019

首先：文章用到的解析库介绍

BeautifulSoup：

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。

它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。

你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Beautiful Soup就不能自动识别编码方式了。然后，你仅仅需要说明一下原始编码方式就可以了。

Beautiful Soup已成为和lxml、html6lib一样出色的python解释器，为用户灵活地提供不同的解析策略或强劲的速度。

爬取小说原因背景：

以前很喜欢看起点网上面的小说，但是很多都要钱，穷学生没多少钱，就发现了笔趣网。

笔趣看是一个小说网站，这里有很多起点中文网的免费小说，而且这个网站只能在线浏览，不支持小说打包下载。

所以本次爬取呢，就是从该网站爬取并保存一个名为《一念永恒》的小说。

另外本次爬取只是做例子演示，请支持正版资源！！！！！！！！！！！

那么简单的爬取开始：

①打开url链接，按F12或者右键- 检查进入开发者工具

python爬虫爬取笔趣网小说网站过程图解

② 在开发者工具中，捕获我们要找到的请求条目信息

选择主文章的一部分内容，选择复制粘贴那一部分，

然后再打开开发者工具栏：

“network—选择放大镜图标sreach—然后再搜索栏粘贴我们要搜索的内容”

python爬虫爬取笔趣网小说网站过程图解

然后会在下方得到条目信息，点击，页面会跳转到加载正文的请求响应条目中。

我们可以看到：

正文部分是处于 id 为 content 和 class 为 showtxt 的 div 中。

③ 构造url请求

上面的信息是不够的，因为现在的网站都有了反爬能力，我们所需要是模拟一条正常从浏览器中发出的url请求链接。

这里我们会用到： User-Agent（浏览器标识）

还是开发者工具，点击Headers，就可以看到Request-Response条目明细。

python爬虫爬取笔趣网小说网站过程图解

④ 发出请求：

有了字段的详细内容，我们就可以编写出请求网页的代码

python爬虫爬取笔趣网小说网站过程图解

⑤ 获得相应内容，然后运行，得到内容如下:

python爬虫爬取笔趣网小说网站过程图解

解析响应数据

下面，我们使用BeautifulSoup进行解析运行….代码结果如图：

python爬虫爬取笔趣网小说网站过程图解

到这里，小说就爬取完成了。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

python爬虫爬取笔趣网小说网站过程图解

- Author -

老鱼的故事

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python psutil模块简单使用实例

Apr 28 Python

python使用xlrd实现检索excel中某列含有指定字符串记录的方法

May 09 Python

学习python之编写简单乘法口诀表实现代码

Feb 27 Python

Django 多语言教程的实现(i18n)

Jul 07 Python

Python爬虫之pandas基本安装与使用方法示例

Aug 08 Python

python selenium登录豆瓣网过程解析

Aug 10 Python

浅谈Python3识别判断图片主要颜色并和颜色库进行对比的方法

Oct 25 Python

查看keras各种网络结构各层的名字方式

Jun 11 Python

Python 在局部变量域中执行代码

Aug 07 Python

python绘制雷达图实例讲解

Jan 03 Python

教你用Python matplotlib库制作简单的动画

Jun 11 Python

Python echarts实现数据可视化实例详解

Mar 03 Python

基于python操作ES实例详解

Nov 16 #Python

Python爬取豆瓣视频信息代码实例

Nov 16 #Python

Pandas数据离散化原理及实例解析

Nov 16 #Python

python实现XML解析的方法解析

Nov 16 #Python

Python实现自定义读写分离代码实例

Nov 16 #Python

Python大数据之网络爬虫的post请求、get请求区别实例分析

Nov 16 #Python

基于python实现雪花算法过程详解

Nov 16 #Python

You might like

PHP中调用JAVA

2006/10/09 PHP

php环境套包 dedeampz 伪静态设置示例

2014/03/26 PHP

laravel实现图片上传预览,及编辑时可更换图片,并实时变化的例子

2019/11/14 PHP

PHP读取文件,解决中文乱码UTF-8的方法分析

2020/01/22 PHP

PHP如何通过带尾指针的链表实现'队列'

2020/10/22 PHP

《JavaScript高级程序设计》阅读笔记（三） ECMAScript中的引用类型

2012/02/27 Javascript

JS/FLASH实现复制代码到剪贴板(兼容所有浏览器)

2013/05/27 Javascript

js实现的后台左侧管理菜单代码

2015/09/11 Javascript

基于javascript数组实现图片轮播

2016/05/02 Javascript

Backbone.js框架中Model与Collection的使用实例

2016/05/07 Javascript

jQuery实现侧浮窗与中浮窗切换效果的方法

2016/09/05 Javascript

JS实现的tab切换选项卡效果示例

2017/02/28 Javascript

JavaScript比较两个数组的内容是否相同(推荐)

2017/05/02 Javascript

jquery replace方法去空格

2017/05/08 jQuery

详解vue-resource promise兼容性问题

2017/06/20 Javascript

关于Stream和Buffer的相互转换详解

2017/07/26 Javascript

vue打包的时候自动将px转成rem的操作方法

2018/06/20 Javascript

微信小程序生成二维码的示例代码

2019/03/29 Javascript

MockJs结合json-server模拟后台数据

2020/08/26 Javascript

JS实现轮播图效果

2020/01/11 Javascript

vue 实现tab切换保持数据状态

2020/07/21 Javascript

javascript实现一款好看的秒表计时器

2020/09/05 Javascript

以windows service方式运行Python程序的方法

2015/06/03 Python

在Apache服务器上同时运行多个Django程序的方法

2015/07/22 Python

Python 基于wxpy库实现微信添加好友功能(简洁)

2019/11/29 Python

Python 判断时间是否在时间区间内的实例

2020/05/16 Python

全球性的众包图形设计市场：DesignCrowd

2021/02/02 全球购物

小溪流的歌教学反思

2014/02/13 职场文书

致垒球运动员加油稿

2014/02/16 职场文书

爱心活动计划书

2014/04/26 职场文书

2014年城市管理工作总结

2014/12/02 职场文书

Python中X[:,0]和X[:,1]的用法

2021/05/10 Python

一文搞懂Golang 时间和日期相关函数

2021/12/06 Golang

MySQL数据库⾼可⽤HA实现小结

2022/01/22 MySQL

通过T-SQL语句创建游标与实现数据库加解密功能

2022/03/16 SQL Server

世界十大儿童漫画书排名，法国国宝漫画排第五，第二是轰动日本连环

2022/03/18 欧美动漫