python爬虫爬取笔趣网小说网站过程图解


Posted in Python onNovember 18, 2019

首先:文章用到的解析库介绍

BeautifulSoup:

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。

它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。

你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。

Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。

爬取小说原因背景:

以前很喜欢看起点网上面的小说,但是很多都要钱,穷学生没多少钱,就发现了笔趣网。

笔趣看是一个小说网站,这里有很多起点中文网的免费小说,而且这个网站只能在线浏览,不支持小说打包下载。

所以本次爬取呢,就是从该网站爬取并保存一个名为《一念永恒》的小说。

另外本次爬取只是做例子演示,请支持正版资源!!!!!!!!!!!

那么简单的爬取开始:

①打开url链接,按F12或者右键- 检查 进入开发者工具

python爬虫爬取笔趣网小说网站过程图解

② 在开发者工具中,捕获我们要找到的请求条目信息

选择主文章的一部分内容,选择复制粘贴那一部分,

然后再打开开发者工具栏:

“network—选择放大镜图标sreach—然后再搜索栏粘贴我们要搜索的内容”

python爬虫爬取笔趣网小说网站过程图解

然后会在下方得到条目信息,点击,页面会跳转到加载正文的请求响应条目中。

我们可以看到:

正文部分是处于 id 为 content 和 class 为 showtxt 的 div 中。

③ 构造url请求

上面的信息是不够的,因为现在的网站都有了反爬能力,我们所需要是模拟一条正常从浏览器中发出的url请求链接。

这里我们会用到: User-Agent(浏览器标识)

还是开发者工具,点击Headers,就可以看到Request-Response条目明细。

python爬虫爬取笔趣网小说网站过程图解

④ 发出请求:

有了字段的详细内容,我们就可以编写出请求网页的代码

python爬虫爬取笔趣网小说网站过程图解

⑤ 获得相应内容,然后运行,得到内容如下:

python爬虫爬取笔趣网小说网站过程图解

解析响应数据

下面,我们使用BeautifulSoup进行解析 运行….代码结果如图:

python爬虫爬取笔趣网小说网站过程图解

到这里,小说就爬取完成了。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
跟老齐学Python之通过Python连接数据库
Oct 28 Python
Python引用模块和查找模块路径
Mar 17 Python
Python读写txt文本文件的操作方法全解析
Jun 26 Python
win10下Python3.6安装、配置以及pip安装包教程
Oct 01 Python
pycharm 将django中多个app放到同个文件夹apps的处理方法
May 30 Python
python爬取微信公众号文章的方法
Feb 26 Python
使用Python-OpenCV向图片添加噪声的实现(高斯噪声、椒盐噪声)
May 28 Python
python函数修饰符@的使用方法解析
Sep 02 Python
python+OpenCV实现图像拼接
Mar 05 Python
Eclipse配置python默认头过程图解
Apr 26 Python
opencv+pyQt5实现图片阈值编辑器/寻色块阈值利器
Nov 13 Python
pycharm激活码免费分享适用最新pycharm2020.2.3永久激活
Nov 25 Python
基于python操作ES实例详解
Nov 16 #Python
Python爬取豆瓣视频信息代码实例
Nov 16 #Python
Pandas数据离散化原理及实例解析
Nov 16 #Python
python实现XML解析的方法解析
Nov 16 #Python
Python实现自定义读写分离代码实例
Nov 16 #Python
Python大数据之网络爬虫的post请求、get请求区别实例分析
Nov 16 #Python
基于python实现雪花算法过程详解
Nov 16 #Python
You might like
php魔术变量用法实例详解
2014/11/13 PHP
PHP实现简单的新闻发布系统实例
2015/07/28 PHP
UserData用法总结 lanyu出品
2010/07/01 Javascript
javascript forEach通用循环遍历方法
2010/10/11 Javascript
读jQuery之九 一些瑕疵说明
2011/06/21 Javascript
node.js中的fs.readdir方法使用说明
2014/12/17 Javascript
JS实现简洁、全兼容的拖动层实例
2015/05/13 Javascript
Uploadify上传文件方法
2016/03/16 Javascript
原生js制作日历控件实例分享
2016/04/06 Javascript
JavaScript弹窗基础篇
2016/04/27 Javascript
AngularJs bootstrap搭载前台框架——准备工作
2016/09/01 Javascript
Javascript实现登录记住用户名和密码功能
2017/03/22 Javascript
bootstrapvalidator之API学习教程
2017/06/29 Javascript
jQuery插件jsonview展示json数据
2018/05/26 jQuery
新年快乐! javascript实现超级炫酷的3D烟花特效
2019/01/30 Javascript
js实现简单五子棋游戏
2020/05/28 Javascript
Node.js文本文件BOM头的去除方法
2020/11/22 Javascript
JavaScript实现网页动态生成表格
2020/11/25 Javascript
[01:02:34]TFT vs VGJ.T Supermajor 败者组 BO3 第二场 6.5
2018/06/06 DOTA
Python中的Classes和Metaclasses详解
2015/04/02 Python
Python 迭代器工具包【推荐】
2016/05/06 Python
浅谈Python中chr、unichr、ord字符函数之间的对比
2016/06/16 Python
python的re模块使用方法详解
2019/07/26 Python
Pycharm 字体大小调整设置的方法实现
2019/09/27 Python
python3 使用Opencv打开USB摄像头,配置1080P分辨率的操作
2019/12/11 Python
Windows下Pycharm远程连接虚拟机中Centos下的Python环境(图文教程详解)
2020/03/19 Python
pycharm 多行批量缩进和反向缩进快捷键介绍
2021/01/15 Python
html5配合css3实现带提示文字的输入框(摆脱js)
2013/03/08 HTML / CSS
Java面向对象面试题
2016/12/26 面试题
学校卫生检查制度
2014/02/03 职场文书
综合办公室主任岗位职责
2014/04/13 职场文书
大学新学期计划书
2014/04/28 职场文书
机关干部个人对照检查材料思想汇报
2014/09/28 职场文书
班主任自我评价范文
2015/03/11 职场文书
法定代表人身份证明书
2015/06/18 职场文书
2015年机关作风和效能建设工作总结
2015/07/23 职场文书