python爬虫爬取笔趣网小说网站过程图解


Posted in Python onNovember 18, 2019

首先:文章用到的解析库介绍

BeautifulSoup:

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。

它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。

你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。

Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。

爬取小说原因背景:

以前很喜欢看起点网上面的小说,但是很多都要钱,穷学生没多少钱,就发现了笔趣网。

笔趣看是一个小说网站,这里有很多起点中文网的免费小说,而且这个网站只能在线浏览,不支持小说打包下载。

所以本次爬取呢,就是从该网站爬取并保存一个名为《一念永恒》的小说。

另外本次爬取只是做例子演示,请支持正版资源!!!!!!!!!!!

那么简单的爬取开始:

①打开url链接,按F12或者右键- 检查 进入开发者工具

python爬虫爬取笔趣网小说网站过程图解

② 在开发者工具中,捕获我们要找到的请求条目信息

选择主文章的一部分内容,选择复制粘贴那一部分,

然后再打开开发者工具栏:

“network—选择放大镜图标sreach—然后再搜索栏粘贴我们要搜索的内容”

python爬虫爬取笔趣网小说网站过程图解

然后会在下方得到条目信息,点击,页面会跳转到加载正文的请求响应条目中。

我们可以看到:

正文部分是处于 id 为 content 和 class 为 showtxt 的 div 中。

③ 构造url请求

上面的信息是不够的,因为现在的网站都有了反爬能力,我们所需要是模拟一条正常从浏览器中发出的url请求链接。

这里我们会用到: User-Agent(浏览器标识)

还是开发者工具,点击Headers,就可以看到Request-Response条目明细。

python爬虫爬取笔趣网小说网站过程图解

④ 发出请求:

有了字段的详细内容,我们就可以编写出请求网页的代码

python爬虫爬取笔趣网小说网站过程图解

⑤ 获得相应内容,然后运行,得到内容如下:

python爬虫爬取笔趣网小说网站过程图解

解析响应数据

下面,我们使用BeautifulSoup进行解析 运行….代码结果如图:

python爬虫爬取笔趣网小说网站过程图解

到这里,小说就爬取完成了。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python计算圆周率pi的方法
Jul 11 Python
Python2.x版本中基本的中文编码问题解决
Oct 12 Python
Python ldap实现登录实例代码
Sep 30 Python
创建pycharm的自定义python模板方法
May 23 Python
python-opencv颜色提取分割方法
Dec 08 Python
pyqt 多窗口之间的相互调用方法
Jun 19 Python
使用Python脚本zabbix自定义key监控oracle连接状态
Aug 28 Python
Python上下文管理器用法及实例解析
Nov 11 Python
基于python traceback实现异常的获取与处理
Dec 13 Python
Python 时间戳之获取整点凌晨时间戳的操作方法
Jan 28 Python
详解BeautifulSoup获取特定标签下内容的方法
Dec 07 Python
写好Python代码的几条重要技巧
May 21 Python
基于python操作ES实例详解
Nov 16 #Python
Python爬取豆瓣视频信息代码实例
Nov 16 #Python
Pandas数据离散化原理及实例解析
Nov 16 #Python
python实现XML解析的方法解析
Nov 16 #Python
Python实现自定义读写分离代码实例
Nov 16 #Python
Python大数据之网络爬虫的post请求、get请求区别实例分析
Nov 16 #Python
基于python实现雪花算法过程详解
Nov 16 #Python
You might like
php中通过smtp发邮件的类,测试通过
2007/01/22 PHP
需要使用php模板的朋友必看的很多个顶级PHP模板引擎比较分析
2008/05/26 PHP
深入php 正则表达式的学习探讨
2013/06/06 PHP
php curl登陆qq后获取用户信息时证书错误
2015/02/03 PHP
浅析Node.js查找字符串功能
2014/09/03 Javascript
javascript简单实现图片预加载
2014/12/03 Javascript
JSON字符串转JSON对象
2015/07/31 Javascript
javascript实现鼠标放上后下边对应内容变换的效果
2015/08/06 Javascript
JS实现状态栏跑马灯文字效果代码
2015/10/24 Javascript
JS判断字符串字节数并截取长度的方法
2016/03/05 Javascript
JavaScript比较两个数组的内容是否相同(推荐)
2017/05/02 Javascript
详解react-native WebView 返回处理(非回调方法可解决)
2018/02/27 Javascript
jQuery实现经典的网页3D轮播图封装功能【附源码下载】
2019/02/15 jQuery
python相似模块用例
2016/03/04 Python
python虚拟环境virtualenv的使用教程
2017/10/20 Python
基于python中的TCP及UDP(详解)
2017/11/06 Python
Python3实现转换Image图片格式
2018/06/21 Python
python运行时强制刷新缓冲区的方法
2019/01/14 Python
python求最大公约数和最小公倍数的简单方法
2020/02/13 Python
Python实现AI换脸功能
2020/04/10 Python
Django Session和Cookie分别实现记住用户登录状态操作
2020/07/02 Python
CSS3自定义滚动条样式 ::webkit-scrollbar的示例代码详解
2020/06/01 HTML / CSS
美国摄影爱好者购物网站:Focus Camera
2016/10/21 全球购物
Sunglasses Shop丹麦:欧洲第一的太阳镜在线销售网站
2017/10/22 全球购物
来自圣地亚哥的实惠太阳镜:Knockaround
2018/08/27 全球购物
英国在线照明超市:Castlegate Lights
2019/10/30 全球购物
中学教师暑期培训方案
2014/08/27 职场文书
校运动会广播稿(100篇)
2014/09/12 职场文书
医生辞职信范文
2015/03/02 职场文书
超市员工辞职信范文
2015/05/12 职场文书
史上最牛辞职信
2015/05/13 职场文书
2015年乡镇工会工作总结
2015/05/19 职场文书
2019最新版火锅店的创业计划书 !
2019/07/12 职场文书
Nginx开启Brotli压缩算法实现过程详解
2021/03/31 Servers
教你用python实现一个无界面的小型图书管理系统
2021/05/21 Python
Java设计模式之代理模式
2022/04/22 Java/Android