python爬虫爬取笔趣网小说网站过程图解


Posted in Python onNovember 18, 2019

首先:文章用到的解析库介绍

BeautifulSoup:

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。

它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。

你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。

Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。

爬取小说原因背景:

以前很喜欢看起点网上面的小说,但是很多都要钱,穷学生没多少钱,就发现了笔趣网。

笔趣看是一个小说网站,这里有很多起点中文网的免费小说,而且这个网站只能在线浏览,不支持小说打包下载。

所以本次爬取呢,就是从该网站爬取并保存一个名为《一念永恒》的小说。

另外本次爬取只是做例子演示,请支持正版资源!!!!!!!!!!!

那么简单的爬取开始:

①打开url链接,按F12或者右键- 检查 进入开发者工具

python爬虫爬取笔趣网小说网站过程图解

② 在开发者工具中,捕获我们要找到的请求条目信息

选择主文章的一部分内容,选择复制粘贴那一部分,

然后再打开开发者工具栏:

“network—选择放大镜图标sreach—然后再搜索栏粘贴我们要搜索的内容”

python爬虫爬取笔趣网小说网站过程图解

然后会在下方得到条目信息,点击,页面会跳转到加载正文的请求响应条目中。

我们可以看到:

正文部分是处于 id 为 content 和 class 为 showtxt 的 div 中。

③ 构造url请求

上面的信息是不够的,因为现在的网站都有了反爬能力,我们所需要是模拟一条正常从浏览器中发出的url请求链接。

这里我们会用到: User-Agent(浏览器标识)

还是开发者工具,点击Headers,就可以看到Request-Response条目明细。

python爬虫爬取笔趣网小说网站过程图解

④ 发出请求:

有了字段的详细内容,我们就可以编写出请求网页的代码

python爬虫爬取笔趣网小说网站过程图解

⑤ 获得相应内容,然后运行,得到内容如下:

python爬虫爬取笔趣网小说网站过程图解

解析响应数据

下面,我们使用BeautifulSoup进行解析 运行….代码结果如图:

python爬虫爬取笔趣网小说网站过程图解

到这里,小说就爬取完成了。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python使用百度API上传文件到百度网盘代码分享
Nov 08 Python
python装饰器与递归算法详解
Feb 18 Python
Python处理JSON数据并生成条形图
Aug 05 Python
python记录程序运行时间的三种方法
Jul 14 Python
Python SqlAlchemy动态添加数据表字段实例解析
Feb 07 Python
Python函数any()和all()的用法及区别介绍
Sep 14 Python
Python中文件的写入读取以及附加文字方法
Jan 23 Python
django 自定义过滤器的实现
Feb 26 Python
elasticsearch python 查询的两种方法
Aug 04 Python
python3 assert 断言的使用详解 (区别于python2)
Nov 27 Python
python函数enumerate,operator和Counter使用技巧实例小结
Feb 22 Python
如何更换python默认编辑器的背景色
Aug 10 Python
基于python操作ES实例详解
Nov 16 #Python
Python爬取豆瓣视频信息代码实例
Nov 16 #Python
Pandas数据离散化原理及实例解析
Nov 16 #Python
python实现XML解析的方法解析
Nov 16 #Python
Python实现自定义读写分离代码实例
Nov 16 #Python
Python大数据之网络爬虫的post请求、get请求区别实例分析
Nov 16 #Python
基于python实现雪花算法过程详解
Nov 16 #Python
You might like
BBS(php & mysql)完整版(一)
2006/10/09 PHP
php+mysql大量用户登录解决方案分析
2014/12/29 PHP
PHP的mysqli_rollback()函数讲解
2019/01/23 PHP
PHP实现新型冠状病毒疫情实时图的实例
2020/02/04 PHP
javascript void(0)的妙用
2009/10/21 Javascript
添加JavaScript重载函数的辅助方法2
2010/07/04 Javascript
javascript判断用户浏览器插件安装情况的代码
2011/01/01 Javascript
用函数模板,写一个简单高效的 JSON 查询器的方法介绍
2013/04/17 Javascript
jquery的父子兄弟节点查找示例代码
2014/03/03 Javascript
JQuery控制Radio选中方法分析
2015/05/29 Javascript
再谈Javascript中的异步以及如何异步
2016/08/19 Javascript
input 禁止输入特殊字符的四种实现方式
2016/08/24 Javascript
vue下跨域设置的相关介绍
2017/08/26 Javascript
JavaScript简单实现合并两个Json对象的方法示例
2017/10/16 Javascript
Vue导出json数据到Excel电子表格的示例
2017/12/04 Javascript
webpack4手动搭建Vue开发环境实现todoList项目的方法
2019/05/16 Javascript
vue新建项目并配置标准路由过程解析
2019/12/09 Javascript
Vue router安装及使用方法解析
2020/12/02 Vue.js
[03:01]2014DOTA2国际邀请赛 DC:我是核弹粉,为Burning和国土祝福
2014/07/13 DOTA
[03:01]完美世界DOTA2联赛PWL S2 集锦第二期
2020/12/03 DOTA
python数据结构之图深度优先和广度优先实例详解
2015/07/08 Python
python网络爬虫之如何伪装逃过反爬虫程序的方法
2017/11/23 Python
Python获取Redis所有Key以及内容的方法
2019/02/19 Python
pandas 层次化索引的实现方法
2019/07/06 Python
Python numpy数组转置与轴变换
2019/11/15 Python
使用opencv识别图像红色区域,并输出红色区域中心点坐标
2020/06/02 Python
开发人员所需要知道的HTML5性能分析面面观
2012/07/05 HTML / CSS
警校毕业生自我评价
2014/04/06 职场文书
大学生社会实践活动总结
2014/07/03 职场文书
小学校长汇报材料
2014/08/20 职场文书
平安家庭事迹材料
2014/12/20 职场文书
春风化雨观后感
2015/06/11 职场文书
《雪域豹影》读后感:父爱的伟大
2019/12/23 职场文书
基于flask实现五子棋小游戏
2021/05/25 Python
php实例化对象的实例方法
2021/11/17 PHP
TV动画「神渣☆爱豆」公开第一弹主视觉图
2022/03/21 日漫