python爬虫爬取笔趣网小说网站过程图解


Posted in Python onNovember 18, 2019

首先:文章用到的解析库介绍

BeautifulSoup:

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。

它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。

你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。

Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。

爬取小说原因背景:

以前很喜欢看起点网上面的小说,但是很多都要钱,穷学生没多少钱,就发现了笔趣网。

笔趣看是一个小说网站,这里有很多起点中文网的免费小说,而且这个网站只能在线浏览,不支持小说打包下载。

所以本次爬取呢,就是从该网站爬取并保存一个名为《一念永恒》的小说。

另外本次爬取只是做例子演示,请支持正版资源!!!!!!!!!!!

那么简单的爬取开始:

①打开url链接,按F12或者右键- 检查 进入开发者工具

python爬虫爬取笔趣网小说网站过程图解

② 在开发者工具中,捕获我们要找到的请求条目信息

选择主文章的一部分内容,选择复制粘贴那一部分,

然后再打开开发者工具栏:

“network—选择放大镜图标sreach—然后再搜索栏粘贴我们要搜索的内容”

python爬虫爬取笔趣网小说网站过程图解

然后会在下方得到条目信息,点击,页面会跳转到加载正文的请求响应条目中。

我们可以看到:

正文部分是处于 id 为 content 和 class 为 showtxt 的 div 中。

③ 构造url请求

上面的信息是不够的,因为现在的网站都有了反爬能力,我们所需要是模拟一条正常从浏览器中发出的url请求链接。

这里我们会用到: User-Agent(浏览器标识)

还是开发者工具,点击Headers,就可以看到Request-Response条目明细。

python爬虫爬取笔趣网小说网站过程图解

④ 发出请求:

有了字段的详细内容,我们就可以编写出请求网页的代码

python爬虫爬取笔趣网小说网站过程图解

⑤ 获得相应内容,然后运行,得到内容如下:

python爬虫爬取笔趣网小说网站过程图解

解析响应数据

下面,我们使用BeautifulSoup进行解析 运行….代码结果如图:

python爬虫爬取笔趣网小说网站过程图解

到这里,小说就爬取完成了。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
pymongo实现控制mongodb中数字字段做加法的方法
Mar 26 Python
python自动翻译实现方法
May 28 Python
python 定义给定初值或长度的list方法
Jun 23 Python
Python中GeoJson和bokeh-1的使用讲解
Jan 03 Python
解决pyinstaller打包pyqt5的问题
Jan 08 Python
python实现比较类的两个instance(对象)是否相等的方法分析
Jun 26 Python
pygame实现俄罗斯方块游戏(对战篇1)
Oct 29 Python
Django框架下静态模板的继承操作示例
Nov 08 Python
Python安装whl文件过程图解
Feb 18 Python
浅析matlab中imadjust函数
Feb 27 Python
Django框架models使用group by详解
Mar 11 Python
有趣的Python图片制作之如何用QQ好友头像拼接出里昂
Apr 22 Python
基于python操作ES实例详解
Nov 16 #Python
Python爬取豆瓣视频信息代码实例
Nov 16 #Python
Pandas数据离散化原理及实例解析
Nov 16 #Python
python实现XML解析的方法解析
Nov 16 #Python
Python实现自定义读写分离代码实例
Nov 16 #Python
Python大数据之网络爬虫的post请求、get请求区别实例分析
Nov 16 #Python
基于python实现雪花算法过程详解
Nov 16 #Python
You might like
PHP 写文本日志实现代码
2010/05/18 PHP
php防盗链的常用方法小结
2010/07/02 PHP
php生成excel列名超过26列大于Z时的解决方法
2014/12/29 PHP
关于php微信订阅号开发之token验证后自动发送消息给订阅号但是没有消息返回的问题
2015/12/21 PHP
PHP 读取大文件并显示的简单实例(推荐)
2016/08/12 PHP
老生常谈PHP中的数据结构:DS扩展
2017/07/17 PHP
实现动画效果核心方式的js代码
2013/09/27 Javascript
jquery 操作iframe的几种方法总结
2013/12/13 Javascript
两款JS脚本判断手机浏览器类型跳转WAP手机网站
2015/10/16 Javascript
javascript入门之string对象【新手必看】
2016/11/22 Javascript
JS实现的图片预览插件与用法示例【不上传图片】
2016/11/25 Javascript
BootstrapValidator实现注册校验和登录错误提示效果
2017/03/10 Javascript
利用js的闭包原理做对象封装及调用方法
2017/04/07 Javascript
JS利用正则表达式实现简单的密码强弱判断实例
2017/06/16 Javascript
一个有意思的鼠标点击文字特效jquery代码
2017/09/23 jQuery
jQuery选择器之子元素过滤选择器
2017/09/28 jQuery
vue-resource请求实现http登录拦截或者路由拦截的方法
2018/07/11 Javascript
javascript实现点击星星小游戏
2019/12/24 Javascript
Python实现的特征提取操作示例
2018/12/03 Python
Python数据报表之Excel操作模块用法分析
2019/03/11 Python
python启动应用程序和终止应用程序的方法
2019/06/28 Python
Python利用matplotlib绘制约数个数统计图示例
2019/11/26 Python
Python如何在main中调用函数内的函数方式
2020/06/01 Python
python根据用户需求输入想爬取的内容及页数爬取图片方法详解
2020/08/03 Python
英国在线玫瑰专家:InterRose
2019/12/01 全球购物
师范生个人推荐信
2013/11/29 职场文书
优秀社区干部事迹材料
2014/02/03 职场文书
致跳远运动员加油稿
2014/02/11 职场文书
《狼》教学反思
2014/03/02 职场文书
群众路线自查报告及整改措施
2014/11/04 职场文书
2015年见习期工作总结
2014/12/12 职场文书
人事聘任通知
2015/04/21 职场文书
Nginx配置80端口访问8080及项目名地址方法解析
2021/03/31 Servers
用javascript制作qq注册动态页面
2021/04/14 Javascript
MySQL连表查询分组去重的实现示例
2021/07/01 MySQL
springboot集成springCloud中gateway时启动报错的解决
2021/07/16 Java/Android