python爬虫爬取笔趣网小说网站过程图解


Posted in Python onNovember 18, 2019

首先:文章用到的解析库介绍

BeautifulSoup:

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。

它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。

你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。

Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。

爬取小说原因背景:

以前很喜欢看起点网上面的小说,但是很多都要钱,穷学生没多少钱,就发现了笔趣网。

笔趣看是一个小说网站,这里有很多起点中文网的免费小说,而且这个网站只能在线浏览,不支持小说打包下载。

所以本次爬取呢,就是从该网站爬取并保存一个名为《一念永恒》的小说。

另外本次爬取只是做例子演示,请支持正版资源!!!!!!!!!!!

那么简单的爬取开始:

①打开url链接,按F12或者右键- 检查 进入开发者工具

python爬虫爬取笔趣网小说网站过程图解

② 在开发者工具中,捕获我们要找到的请求条目信息

选择主文章的一部分内容,选择复制粘贴那一部分,

然后再打开开发者工具栏:

“network—选择放大镜图标sreach—然后再搜索栏粘贴我们要搜索的内容”

python爬虫爬取笔趣网小说网站过程图解

然后会在下方得到条目信息,点击,页面会跳转到加载正文的请求响应条目中。

我们可以看到:

正文部分是处于 id 为 content 和 class 为 showtxt 的 div 中。

③ 构造url请求

上面的信息是不够的,因为现在的网站都有了反爬能力,我们所需要是模拟一条正常从浏览器中发出的url请求链接。

这里我们会用到: User-Agent(浏览器标识)

还是开发者工具,点击Headers,就可以看到Request-Response条目明细。

python爬虫爬取笔趣网小说网站过程图解

④ 发出请求:

有了字段的详细内容,我们就可以编写出请求网页的代码

python爬虫爬取笔趣网小说网站过程图解

⑤ 获得相应内容,然后运行,得到内容如下:

python爬虫爬取笔趣网小说网站过程图解

解析响应数据

下面,我们使用BeautifulSoup进行解析 运行….代码结果如图:

python爬虫爬取笔趣网小说网站过程图解

到这里,小说就爬取完成了。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python模拟新浪微博登陆功能(新浪微博爬虫)
Dec 24 Python
Python中的XML库4Suite Server的介绍
Apr 14 Python
在Python中使用cookielib和urllib2配合PyQuery抓取网页信息
Apr 25 Python
小议Python中自定义函数的可变参数的使用及注意点
Jun 21 Python
对于Python中RawString的理解介绍
Jul 07 Python
Python实现通讯录功能
Feb 22 Python
python3中os.path模块下常用的用法总结【推荐】
Sep 16 Python
python全栈知识点总结
Jul 01 Python
解决Python正则表达式匹配反斜杠''\''问题
Jul 17 Python
利用PyQt5+Matplotlib 绘制静态/动态图的实现代码
Jul 13 Python
通过代码实例了解Python sys模块
Sep 14 Python
Prometheus开发中间件Exporter过程详解
Nov 30 Python
基于python操作ES实例详解
Nov 16 #Python
Python爬取豆瓣视频信息代码实例
Nov 16 #Python
Pandas数据离散化原理及实例解析
Nov 16 #Python
python实现XML解析的方法解析
Nov 16 #Python
Python实现自定义读写分离代码实例
Nov 16 #Python
Python大数据之网络爬虫的post请求、get请求区别实例分析
Nov 16 #Python
基于python实现雪花算法过程详解
Nov 16 #Python
You might like
php网页后退不再出现过期
2007/03/08 PHP
php 随机记录mysql rand()造成CPU 100%的解决办法
2010/05/18 PHP
PHP学习笔记之一
2011/01/17 PHP
比较discuz和ecshop的截取字符串函数php版
2012/09/03 PHP
PHP使用file_get_content设置头信息的方法
2016/02/14 PHP
PHP文件管理之实现网盘及压缩包的功能操作
2017/09/20 PHP
CL vs ForZe BO5 第三场 2.13
2021/03/10 DOTA
JQuery学习笔记 nt-child的使用
2011/01/17 Javascript
JavaScript下通过的XMLHttpRequest发送请求的代码
2011/06/28 Javascript
javascript中[]和{}对象使用介绍
2013/03/20 Javascript
防止浏览器记住用户名及密码的简单实用方法
2013/04/22 Javascript
Microsfot .NET Framework4.0框架 安装失败的解决方法
2013/08/14 Javascript
js中switch case循环实例代码
2013/12/30 Javascript
两个select多选模式的选项相互移动(示例代码)
2014/01/11 Javascript
JavaScript通过字典进行字符串翻译转换的方法
2015/03/19 Javascript
浅谈下拉菜单中的Option对象
2015/05/10 Javascript
JavaScript返回上一页的三种方法及区别介绍
2015/07/04 Javascript
js游戏人物上下左右跑步效果代码分享
2015/08/28 Javascript
js指定步长实现单方向匀速运动
2017/07/17 Javascript
简单谈谈React中的路由系统
2017/07/25 Javascript
深入理解JavaScript的async/await
2018/08/05 Javascript
jquery实现烟花效果(面向对象)
2020/03/10 jQuery
javascript实现智能手环时间显示
2020/09/18 Javascript
element el-table表格的二次封装实现(附表格高度自适应)
2021/01/19 Javascript
python创建线程示例
2014/05/06 Python
编写Python爬虫抓取豆瓣电影TOP100及用户头像的方法
2016/01/20 Python
Pytorch 实现冻结指定卷积层的参数
2020/01/06 Python
Python基于os.environ从windows获取环境变量
2020/06/09 Python
基于CSS3实现图片模糊过滤效果
2015/11/19 HTML / CSS
一些Solaris面试题
2015/12/22 面试题
英文简历中的自荐信范文
2013/12/14 职场文书
道路建设实施方案
2014/03/18 职场文书
交通事故赔偿协议书
2014/10/16 职场文书
陈斌强事迹观后感
2015/06/17 职场文书
2016寒假假期总结
2015/10/10 职场文书
Tomcat安装使用及部署Web项目的3种方法汇总
2022/08/14 Servers