python如何爬取网页中的文字


Posted in Python onJuly 28, 2020

用Python进行爬取网页文字的代码:

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import requests
import re
# 下载一个网页
url = 'https://www.biquge.tw/75_75273/3900155.html'
# 模拟浏览器发送http请求
response = requests.get(url)
# 编码方式
response.encoding='utf-8'
# 目标小说主页的网页源码
html = response.text
print(html)

1、编写爬虫思路:

确定下载目标,找到网页,找到网页中需要的内容。对数据进行处理。保存数据。

2、知识点说明:

1)确定网络中需要的信息,打开网页后使用F12打开开发者模式。

在Network中可以看到很多信息,我们在页面上看到的文字信息都保存在一个html文件中。点击文件后可以看到response,文字信息都包含在response中。

对于需要输入的信息,可以使用ctrl+f,进行搜索。查看信息前后包含哪些特定字段。

对于超链接的提取,可以使用最左边的箭头点击超链接,这时Elements会打开有该条超链接的信息,从中判断需要提取的信息。从下载小说来看,在目录页提取出小说的链接和章节名。

2)注意编码格式

输入字符集一定要设置成utf-8。页面大多为GBK字符集。不设置会乱码。

内容扩展:

接下来我们了解一下爬取网页信息的步骤。

想要获得我们所需的数据分三步

第一步:使用BeautifulSoup解析网页

Soup = BeautifulSoup(html,'lxml')

第二步:描述想要爬去信息的东西在哪里。

信息 = Soup.select('???')

要知道它叫什么名字,如何去定位。

第三步:从标签中获得你想要的信息

<p>Something</p>

从标签中获取我们需要的信息,去掉一些没有用的结构,并且把我们获取的信息按照一定格式装在数据容器中,方便我们去查询。

以上就是python如何爬取网页中的文字的详细内容,更多关于python爬取网页文字的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
python实现网页链接提取的方法分享
Feb 25 Python
将Python代码打包为jar软件的简单方法
Aug 04 Python
python如何查看系统网络流量的信息
Sep 12 Python
Python实现的绘制三维双螺旋线图形功能示例
Jun 23 Python
Python3+Pycharm+PyQt5环境搭建步骤图文详解
May 29 Python
django实现类似触发器的功能
Nov 15 Python
python 多维高斯分布数据生成方式
Dec 09 Python
python模拟预测一下新型冠状病毒肺炎的数据
Feb 01 Python
Python实现在Windows平台修改文件属性
Mar 05 Python
Python实现计算图像RGB均值方式
Jun 04 Python
树莓派4B安装Tensorflow的方法步骤
Jul 16 Python
python中doctest库实例用法
Dec 31 Python
Python同时处理多个异常的方法
Jul 28 #Python
Python远程方法调用实现过程解析
Jul 28 #Python
Python 实现一个计时器
Jul 28 #Python
python爬虫要用到的库总结
Jul 28 #Python
Python常用类型转换实现代码实例
Jul 28 #Python
Python 如何创建一个线程池
Jul 28 #Python
matplotlib subplot绘制多个子图的方法示例
Jul 28 #Python
You might like
在php中取得image按钮传递的name值
2006/10/09 PHP
色色整理的PHP面试题集锦
2012/03/08 PHP
php安装扩展mysqli的实现步骤及报错解决办法
2017/09/23 PHP
PHP项目多语言配置平台实现过程解析
2020/05/18 PHP
js监听滚动条滚动事件使得某个标签内容始终位于同一位置
2014/01/24 Javascript
JS动态改变表格边框宽度的方法
2015/03/31 Javascript
JS采用绝对定位实现回到顶部效果完整实例
2016/06/20 Javascript
基于JavaScript实现轮播图原理及示例
2020/04/10 Javascript
bootstrap基本配置_动力节点Java学院整理
2017/07/14 Javascript
基于对象合并功能的实现示例
2017/10/10 Javascript
Angular实现预加载延迟模块的示例
2017/10/12 Javascript
微信小程序实现图片上传、删除和预览功能的方法
2017/12/18 Javascript
简述pm2常用命令集合及配置文件说明
2019/05/30 Javascript
基于Vue的商品主图放大镜方案详解
2019/09/19 Javascript
JS实现json数组排序操作实例分析
2019/10/28 Javascript
vue 解决兄弟组件、跨组件深层次的通信操作
2020/07/27 Javascript
js实现日历
2020/11/07 Javascript
python登陆asp网站页面的实现代码
2015/01/14 Python
浅谈python3发送post请求参数为空的情况
2018/12/28 Python
Python动态赋值的陷阱知识点总结
2019/03/17 Python
Python利用requests模块下载图片实例代码
2019/08/12 Python
Prometheus开发中间件Exporter过程详解
2020/11/30 Python
canvas绘制图片drawImage使用方法
2020/09/15 HTML / CSS
印度尼西亚手表和包包商店:Urban Icon
2019/12/12 全球购物
Linux如何压缩可执行文件
2013/10/21 面试题
大学生个人自我鉴定
2013/12/03 职场文书
端午节粽子促销活动方案
2014/02/02 职场文书
超市重阳节活动方案
2014/02/10 职场文书
服务承诺口号
2014/05/22 职场文书
建筑节能汇报材料
2014/08/22 职场文书
2014机关干部学习“焦裕禄精神”思想汇报
2014/09/19 职场文书
优秀班主任事迹材料
2014/12/16 职场文书
毕业生捐书活动倡议书
2015/04/27 职场文书
2016年学校党支部创先争优活动总结
2016/04/05 职场文书
解决Tkinter中button按钮未按却主动执行command函数的问题
2021/05/23 Python
pytorch 如何使用amp进行混合精度训练
2021/05/24 Python