python爬虫爬取笔趣网小说网站过程图解


Posted in Python onNovember 18, 2019

首先:文章用到的解析库介绍

BeautifulSoup:

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。

它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。

你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。

Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。

爬取小说原因背景:

以前很喜欢看起点网上面的小说,但是很多都要钱,穷学生没多少钱,就发现了笔趣网。

笔趣看是一个小说网站,这里有很多起点中文网的免费小说,而且这个网站只能在线浏览,不支持小说打包下载。

所以本次爬取呢,就是从该网站爬取并保存一个名为《一念永恒》的小说。

另外本次爬取只是做例子演示,请支持正版资源!!!!!!!!!!!

那么简单的爬取开始:

①打开url链接,按F12或者右键- 检查 进入开发者工具

python爬虫爬取笔趣网小说网站过程图解

② 在开发者工具中,捕获我们要找到的请求条目信息

选择主文章的一部分内容,选择复制粘贴那一部分,

然后再打开开发者工具栏:

“network—选择放大镜图标sreach—然后再搜索栏粘贴我们要搜索的内容”

python爬虫爬取笔趣网小说网站过程图解

然后会在下方得到条目信息,点击,页面会跳转到加载正文的请求响应条目中。

我们可以看到:

正文部分是处于 id 为 content 和 class 为 showtxt 的 div 中。

③ 构造url请求

上面的信息是不够的,因为现在的网站都有了反爬能力,我们所需要是模拟一条正常从浏览器中发出的url请求链接。

这里我们会用到: User-Agent(浏览器标识)

还是开发者工具,点击Headers,就可以看到Request-Response条目明细。

python爬虫爬取笔趣网小说网站过程图解

④ 发出请求:

有了字段的详细内容,我们就可以编写出请求网页的代码

python爬虫爬取笔趣网小说网站过程图解

⑤ 获得相应内容,然后运行,得到内容如下:

python爬虫爬取笔趣网小说网站过程图解

解析响应数据

下面,我们使用BeautifulSoup进行解析 运行….代码结果如图:

python爬虫爬取笔趣网小说网站过程图解

到这里,小说就爬取完成了。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python中多线程及程序锁浅析
Jan 21 Python
python传递参数方式小结
Apr 17 Python
windows10系统中安装python3.x+scrapy教程
Nov 08 Python
深入理解Python中的*重复运算符
Oct 28 Python
对变量赋值的理解--Pyton中让两个值互换的实现方法
Nov 29 Python
python 对给定可迭代集合统计出现频率,并排序的方法
Oct 18 Python
python实现超级马里奥
Mar 18 Python
Python利用imshow制作自定义渐变填充柱状图(colorbar)
Dec 10 Python
python编程的核心知识点总结
Feb 08 Python
详解Python小数据池和代码块缓存机制
Apr 07 Python
详细总结Python常见的安全问题
May 21 Python
Pytorch中的学习率衰减及其用法详解
Jun 05 Python
基于python操作ES实例详解
Nov 16 #Python
Python爬取豆瓣视频信息代码实例
Nov 16 #Python
Pandas数据离散化原理及实例解析
Nov 16 #Python
python实现XML解析的方法解析
Nov 16 #Python
Python实现自定义读写分离代码实例
Nov 16 #Python
Python大数据之网络爬虫的post请求、get请求区别实例分析
Nov 16 #Python
基于python实现雪花算法过程详解
Nov 16 #Python
You might like
php程序的国际化实现方法(利用gettext)
2011/08/14 PHP
php进程间通讯实例分析
2016/07/11 PHP
SAE实时日志接口SDK用法示例
2016/10/09 PHP
CI框架AR数据库操作常用函数总结
2016/11/21 PHP
php7安装yar扩展的方法详解
2017/08/03 PHP
最近项目写了一些js,水平有待提高
2009/01/31 Javascript
Mootools 1.2教程 排序类和方法简介
2009/09/15 Javascript
Web 前端设计模式--Dom重构 提高显示性能
2010/10/22 Javascript
js限制checkbox选中个数以限制六个为例
2014/07/15 Javascript
node.js插件nodeclipse安装图文教程
2020/10/19 Javascript
基于Bootstrap实现图片轮播效果
2016/05/22 Javascript
Node.js + Redis Sorted Set实现任务队列
2016/09/19 Javascript
Angularjs 设置全局变量的方法总结
2016/10/20 Javascript
微信小程序 聊天室简单实现
2017/04/19 Javascript
jQuery实现动态添加、删除按钮及input输入框的方法
2017/04/27 jQuery
vue封装第三方插件并发布到npm的方法
2017/09/25 Javascript
Vue实现数字输入框中分割手机号码的示例
2017/10/10 Javascript
vue项目中用cdn优化的方法
2018/01/03 Javascript
node实现基于token的身份验证
2018/04/09 Javascript
Vue中用props给data赋初始值遇到的问题解决
2018/11/27 Javascript
微信小程序封装分享与分销功能过程解析
2019/08/13 Javascript
vue实现页面内容禁止选中功能,仅输入框和文本域可选
2019/11/09 Javascript
vue实现移动端触屏拖拽功能
2020/08/21 Javascript
python 根据pid杀死相应进程的方法
2017/01/16 Python
python2.x实现人民币转大写人民币
2018/06/20 Python
使用python画社交网络图实例代码
2019/07/10 Python
浅谈Python中函数的定义及其调用方法
2019/07/19 Python
Keras—embedding嵌入层的用法详解
2020/06/10 Python
python的json包位置及用法总结
2020/06/21 Python
python 解决selenium 中的 .clear()方法失效问题
2020/09/01 Python
企业厂长岗位职责
2013/12/17 职场文书
食品行业求职人的自我评价
2014/01/19 职场文书
制药工程专业个人求职自荐信
2014/01/25 职场文书
思想品德评语大全
2014/12/31 职场文书
原告代理词范文
2015/05/25 职场文书
天河观后感
2015/06/11 职场文书