python爬虫爬取笔趣网小说网站过程图解


Posted in Python onNovember 18, 2019

首先:文章用到的解析库介绍

BeautifulSoup:

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。

它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。

你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。

Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。

爬取小说原因背景:

以前很喜欢看起点网上面的小说,但是很多都要钱,穷学生没多少钱,就发现了笔趣网。

笔趣看是一个小说网站,这里有很多起点中文网的免费小说,而且这个网站只能在线浏览,不支持小说打包下载。

所以本次爬取呢,就是从该网站爬取并保存一个名为《一念永恒》的小说。

另外本次爬取只是做例子演示,请支持正版资源!!!!!!!!!!!

那么简单的爬取开始:

①打开url链接,按F12或者右键- 检查 进入开发者工具

python爬虫爬取笔趣网小说网站过程图解

② 在开发者工具中,捕获我们要找到的请求条目信息

选择主文章的一部分内容,选择复制粘贴那一部分,

然后再打开开发者工具栏:

“network—选择放大镜图标sreach—然后再搜索栏粘贴我们要搜索的内容”

python爬虫爬取笔趣网小说网站过程图解

然后会在下方得到条目信息,点击,页面会跳转到加载正文的请求响应条目中。

我们可以看到:

正文部分是处于 id 为 content 和 class 为 showtxt 的 div 中。

③ 构造url请求

上面的信息是不够的,因为现在的网站都有了反爬能力,我们所需要是模拟一条正常从浏览器中发出的url请求链接。

这里我们会用到: User-Agent(浏览器标识)

还是开发者工具,点击Headers,就可以看到Request-Response条目明细。

python爬虫爬取笔趣网小说网站过程图解

④ 发出请求:

有了字段的详细内容,我们就可以编写出请求网页的代码

python爬虫爬取笔趣网小说网站过程图解

⑤ 获得相应内容,然后运行,得到内容如下:

python爬虫爬取笔趣网小说网站过程图解

解析响应数据

下面,我们使用BeautifulSoup进行解析 运行….代码结果如图:

python爬虫爬取笔趣网小说网站过程图解

到这里,小说就爬取完成了。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python解析文件示例
Jan 23 Python
python简单程序读取串口信息的方法
Mar 13 Python
使用Python生成随机密码的示例分享
Feb 18 Python
Python 专题五 列表基础知识(二维list排序、获取下标和处理txt文本实例)
Mar 20 Python
Python工厂函数用法实例分析
May 14 Python
详解Django-restframework 之频率源码分析
Feb 27 Python
django 捕获异常和日志系统过程详解
Jul 18 Python
python实现IOU计算案例
Apr 12 Python
numpy库ndarray多维数组的维度变换方法(reshape、resize、swapaxes、flatten)
Apr 28 Python
对python pandas中 inplace 参数的理解
Jun 27 Python
keras分类之二分类实例(Cat and dog)
Jul 09 Python
Django Admin后台模型列表页面如何添加自定义操作按钮
Nov 11 Python
基于python操作ES实例详解
Nov 16 #Python
Python爬取豆瓣视频信息代码实例
Nov 16 #Python
Pandas数据离散化原理及实例解析
Nov 16 #Python
python实现XML解析的方法解析
Nov 16 #Python
Python实现自定义读写分离代码实例
Nov 16 #Python
Python大数据之网络爬虫的post请求、get请求区别实例分析
Nov 16 #Python
基于python实现雪花算法过程详解
Nov 16 #Python
You might like
关于更改Zend Studio/Eclipse代码风格主题的介绍
2013/06/23 PHP
php Calender(日历)代码分享
2014/01/03 PHP
linux使用crontab实现PHP执行计划定时任务
2014/05/10 PHP
PHP对象相互引用的内存溢出实例分析
2014/08/28 PHP
PHP 读取大文件并显示的简单实例(推荐)
2016/08/12 PHP
PHP实现统计代码行数小工具
2019/09/19 PHP
jQuery contains过滤器实现精确匹配使用方法
2013/04/12 Javascript
ff下JQuery无法监听input的keyup事件的解决方法
2013/12/12 Javascript
IE 下Enter提交表单存在重复提交问题的解决方法
2014/05/04 Javascript
2016年最热门的15 款代码语法高亮工具,美化你的代码
2016/01/06 Javascript
jQuery实现订单提交页发送短信功能前端处理方法
2016/07/04 Javascript
js调用刷新界面的几种方式
2017/05/03 Javascript
详解如何制作并发布一个vue的组件的npm包
2018/11/10 Javascript
Vue的双向数据绑定实现原理解析
2020/02/17 Javascript
Javascript前端下载后台传来的文件流代码实例
2020/08/18 Javascript
Node.js利用Express实现用户注册登陆功能(推荐)
2020/10/26 Javascript
python中使用xlrd、xlwt操作excel表格详解
2015/01/29 Python
Python实现批量转换文件编码的方法
2015/07/28 Python
Python爬取京东的商品分类与链接
2016/08/26 Python
python中实现迭代器(iterator)的方法示例
2017/01/19 Python
python音频处理用到的操作的示例代码
2017/10/27 Python
详谈Numpy中数组重塑、合并与拆分方法
2018/04/17 Python
python查看列的唯一值方法
2018/07/17 Python
python装饰器常见使用方法分析
2019/06/26 Python
Django实现跨域请求过程详解
2019/07/25 Python
使用Keras 实现查看model weights .h5 文件的内容
2020/06/09 Python
python线程里哪种模块比较适合
2020/08/02 Python
Sentry错误日志监控使用方法解析
2020/11/12 Python
Lovedrobe官网:英国领先的大码服装品牌
2019/09/19 全球购物
冬季安全检查方案
2014/05/23 职场文书
幼儿园万圣节活动总结
2015/05/05 职场文书
健康证明
2015/06/19 职场文书
2019中秋节祝福语大全,提前收藏啦
2019/09/10 职场文书
《中国机长》观后感:敬畏生命,敬畏职责
2019/11/12 职场文书
详解Mysql 函数调用优化
2021/04/07 MySQL
Html5新增了哪些功能
2021/04/16 HTML / CSS