python爬虫爬取笔趣网小说网站过程图解


Posted in Python onNovember 18, 2019

首先:文章用到的解析库介绍

BeautifulSoup:

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。

它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。

你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。

Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。

爬取小说原因背景:

以前很喜欢看起点网上面的小说,但是很多都要钱,穷学生没多少钱,就发现了笔趣网。

笔趣看是一个小说网站,这里有很多起点中文网的免费小说,而且这个网站只能在线浏览,不支持小说打包下载。

所以本次爬取呢,就是从该网站爬取并保存一个名为《一念永恒》的小说。

另外本次爬取只是做例子演示,请支持正版资源!!!!!!!!!!!

那么简单的爬取开始:

①打开url链接,按F12或者右键- 检查 进入开发者工具

python爬虫爬取笔趣网小说网站过程图解

② 在开发者工具中,捕获我们要找到的请求条目信息

选择主文章的一部分内容,选择复制粘贴那一部分,

然后再打开开发者工具栏:

“network—选择放大镜图标sreach—然后再搜索栏粘贴我们要搜索的内容”

python爬虫爬取笔趣网小说网站过程图解

然后会在下方得到条目信息,点击,页面会跳转到加载正文的请求响应条目中。

我们可以看到:

正文部分是处于 id 为 content 和 class 为 showtxt 的 div 中。

③ 构造url请求

上面的信息是不够的,因为现在的网站都有了反爬能力,我们所需要是模拟一条正常从浏览器中发出的url请求链接。

这里我们会用到: User-Agent(浏览器标识)

还是开发者工具,点击Headers,就可以看到Request-Response条目明细。

python爬虫爬取笔趣网小说网站过程图解

④ 发出请求:

有了字段的详细内容,我们就可以编写出请求网页的代码

python爬虫爬取笔趣网小说网站过程图解

⑤ 获得相应内容,然后运行,得到内容如下:

python爬虫爬取笔趣网小说网站过程图解

解析响应数据

下面,我们使用BeautifulSoup进行解析 运行….代码结果如图:

python爬虫爬取笔趣网小说网站过程图解

到这里,小说就爬取完成了。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python3写入文件常用方法实例分析
May 22 Python
python2.7 mayavi 安装图文教程(推荐)
Jun 22 Python
对PyTorch torch.stack的实例讲解
Jul 30 Python
python for 循环获取index索引的方法
Feb 01 Python
使用Python正则表达式操作文本数据的方法
May 14 Python
如何使用Python标准库进行性能测试
Jun 25 Python
用sqlalchemy构建Django连接池的实例
Aug 29 Python
Python之指数与E记法的区别详解
Nov 21 Python
Python图像处理库PIL的ImageFilter模块使用介绍
Feb 26 Python
python3注册全局热键的实现
Mar 22 Python
在CentOS7下安装Python3教程解析
Jul 09 Python
Python实现爬取网页中动态加载的数据
Aug 17 Python
基于python操作ES实例详解
Nov 16 #Python
Python爬取豆瓣视频信息代码实例
Nov 16 #Python
Pandas数据离散化原理及实例解析
Nov 16 #Python
python实现XML解析的方法解析
Nov 16 #Python
Python实现自定义读写分离代码实例
Nov 16 #Python
Python大数据之网络爬虫的post请求、get请求区别实例分析
Nov 16 #Python
基于python实现雪花算法过程详解
Nov 16 #Python
You might like
农民和部队如何穿矿
2020/03/04 星际争霸
中国收音机工业发展史
2021/03/02 无线电
提高PHP编程效率的53个要点(经验小结)
2010/09/04 PHP
PHP 布尔值的自增与自减的实现方法
2018/05/03 PHP
PHP中有关长整数的一些操作教程
2019/09/11 PHP
php获取是星期几的的一些常用姿势
2019/12/15 PHP
制作特殊字的脚本
2006/06/26 Javascript
google地图的路线实现代码
2009/08/20 Javascript
基于iframe实现类似于ajax的页面无刷新
2014/05/31 Javascript
Javascript基础教程之数组 array
2015/01/18 Javascript
学习jQuey中的return false
2015/12/18 Javascript
JavaScript驾驭网页-获取网页元素
2016/03/24 Javascript
jQuery增加和删除表格项目及实现表格项目排序的方法
2016/05/30 Javascript
深入理解JavaScript中的预解析
2017/01/04 Javascript
Mongoose中document与object的区别示例详解
2017/09/18 Javascript
Node.js中Bootstrap-table的两种分页的实现方法
2017/09/18 Javascript
一看就会的vuex实现登录验证(附案例)
2020/01/09 Javascript
JS 数组和对象的深拷贝操作示例
2020/06/06 Javascript
vue 组件间的通信之子组件向父组件传值的方式
2020/07/29 Javascript
[02:54]DOTA2英雄基础教程 撼地者
2014/01/14 DOTA
[02:09]DOTA2辉夜杯 EHOME夺冠举杯现场
2015/12/28 DOTA
Python爬虫爬验证码实现功能详解
2016/04/14 Python
实例讲解Python中global语句下全局变量的值的修改
2016/06/16 Python
Python实现读取json文件到excel表
2017/11/18 Python
python 利用文件锁单例执行脚本的方法
2019/02/19 Python
python爬虫之爬取百度音乐的实现方法
2019/08/24 Python
解决pip install psycopg2出错问题
2020/07/09 Python
使用HTML5做的导航条详细步骤
2020/10/19 HTML / CSS
就业推荐自我鉴定
2013/10/06 职场文书
《大江保卫战》教学反思
2014/04/11 职场文书
做一个有道德的人演讲稿
2014/05/14 职场文书
教师敬业奉献模范事迹材料
2014/05/18 职场文书
小学网上祭英烈活动总结
2014/07/05 职场文书
小学生推普周国旗下讲话稿
2014/09/21 职场文书
如何使用flask将模型部署为服务
2021/05/13 Python
Golang解析JSON对象
2022/04/30 Golang