python爬虫爬取笔趣网小说网站过程图解


Posted in Python onNovember 18, 2019

首先:文章用到的解析库介绍

BeautifulSoup:

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。

它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。

你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。

Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。

爬取小说原因背景:

以前很喜欢看起点网上面的小说,但是很多都要钱,穷学生没多少钱,就发现了笔趣网。

笔趣看是一个小说网站,这里有很多起点中文网的免费小说,而且这个网站只能在线浏览,不支持小说打包下载。

所以本次爬取呢,就是从该网站爬取并保存一个名为《一念永恒》的小说。

另外本次爬取只是做例子演示,请支持正版资源!!!!!!!!!!!

那么简单的爬取开始:

①打开url链接,按F12或者右键- 检查 进入开发者工具

python爬虫爬取笔趣网小说网站过程图解

② 在开发者工具中,捕获我们要找到的请求条目信息

选择主文章的一部分内容,选择复制粘贴那一部分,

然后再打开开发者工具栏:

“network—选择放大镜图标sreach—然后再搜索栏粘贴我们要搜索的内容”

python爬虫爬取笔趣网小说网站过程图解

然后会在下方得到条目信息,点击,页面会跳转到加载正文的请求响应条目中。

我们可以看到:

正文部分是处于 id 为 content 和 class 为 showtxt 的 div 中。

③ 构造url请求

上面的信息是不够的,因为现在的网站都有了反爬能力,我们所需要是模拟一条正常从浏览器中发出的url请求链接。

这里我们会用到: User-Agent(浏览器标识)

还是开发者工具,点击Headers,就可以看到Request-Response条目明细。

python爬虫爬取笔趣网小说网站过程图解

④ 发出请求:

有了字段的详细内容,我们就可以编写出请求网页的代码

python爬虫爬取笔趣网小说网站过程图解

⑤ 获得相应内容,然后运行,得到内容如下:

python爬虫爬取笔趣网小说网站过程图解

解析响应数据

下面,我们使用BeautifulSoup进行解析 运行….代码结果如图:

python爬虫爬取笔趣网小说网站过程图解

到这里,小说就爬取完成了。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python人人网登录应用实例
Sep 26 Python
Python使用functools实现注解同步方法
Feb 06 Python
python实现从文件中读取数据并绘制成 x y 轴图形的方法
Oct 14 Python
Python中垃圾回收和del语句详解
Nov 15 Python
对web.py设置favicon.ico的方法详解
Dec 04 Python
Django ModelForm组件使用方法详解
Jul 23 Python
Python八皇后问题解答过程详解
Jul 29 Python
Python3 chardet模块查看编码格式的例子
Aug 14 Python
django admin 根据choice字段选择的不同来显示不同的页面方式
May 13 Python
基于django 的orm中非主键自增的实现方式
May 18 Python
python产生模拟数据faker库的使用详解
Nov 04 Python
Python超详细分步解析随机漫步
Mar 17 Python
基于python操作ES实例详解
Nov 16 #Python
Python爬取豆瓣视频信息代码实例
Nov 16 #Python
Pandas数据离散化原理及实例解析
Nov 16 #Python
python实现XML解析的方法解析
Nov 16 #Python
Python实现自定义读写分离代码实例
Nov 16 #Python
Python大数据之网络爬虫的post请求、get请求区别实例分析
Nov 16 #Python
基于python实现雪花算法过程详解
Nov 16 #Python
You might like
php 的加密函数 md5,crypt,base64_encode 等使用介绍
2012/04/09 PHP
慎用preg_replace危险的/e修饰符(一句话后门常用)
2013/06/19 PHP
php命令行(cli)下执行PHP脚本文件的相对路径的问题解决方法
2015/05/25 PHP
PHP实现清除wordpress里恶意代码
2015/10/21 PHP
CentOS下与Apache连接的PHP多版本共存方案实现详解
2015/12/19 PHP
PHP类的声明与实例化及构造方法与析构方法详解
2016/01/26 PHP
PHP实现二叉树深度优先遍历(前序、中序、后序)和广度优先遍历(层次)实例详解
2018/04/20 PHP
PHP实现字母数字混合验证码功能
2019/07/11 PHP
Laravel5.5 实现后台管理登录的方法(自定义用户表登录)
2019/09/30 PHP
PhotoShop给图片自动添加边框及EXIF信息的JS脚本
2015/02/15 Javascript
JS显示表格内指定行html代码的方法
2015/03/31 Javascript
关于JavaScript中事件绑定的方法总结
2016/10/26 Javascript
javaScript和jQuery自动加载简单代码实现方法
2017/11/24 jQuery
jQuery实现每隔一段时间自动更换样式的方法分析
2018/05/03 jQuery
JavaScript中BOM对象原理与用法分析
2019/07/09 Javascript
深入了解JavaScript 防抖和节流
2019/09/12 Javascript
Electron实现应用打包、自动升级过程解析
2020/07/07 Javascript
[01:05:07]DOTA2-DPC中国联赛 正赛 DLG vs Dragon BO3 第一场2月1日
2021/03/11 DOTA
python调用新浪微博API项目实践
2014/07/28 Python
Python 多进程并发操作中进程池Pool的实例
2017/11/01 Python
Python实现的对一个数进行因式分解操作示例
2019/06/27 Python
python去除删除数据中\u0000\u0001等unicode字符串的代码
2020/03/06 Python
使用Python实现音频双通道分离
2020/12/25 Python
8款精美的CSS3表单设计(登录表单/下拉选择/按钮附演示及源码)
2013/02/04 HTML / CSS
HTML5 script元素async、defer异步加载使用介绍
2013/08/23 HTML / CSS
html5 canvas简单封装一个echarts实现不了的饼图
2018/06/12 HTML / CSS
德国最大的设计师鞋网上商店:Budapester
2017/12/07 全球购物
英国派对礼服和连衣裙购物网站:TFNC London
2018/07/07 全球购物
宝信软件JAVA工程师面试经历
2012/08/19 面试题
主键(Primary Key)约束和唯一性(UNIQUE)约束的区别
2013/05/29 面试题
培根随笔读书笔记
2015/07/01 职场文书
2016年大学迎新晚会工作总结
2015/10/15 职场文书
导游词之南京汤山温泉
2019/11/26 职场文书
Oracle安装TNS_ADMIN环境变量设置参考
2021/11/01 Oracle
Python字典的基础操作
2021/11/01 Python
vue如何在data中引入图片的正确路径
2022/06/05 Vue.js