python如何爬取网页中的文字


Posted in Python onJuly 28, 2020

用Python进行爬取网页文字的代码:

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import requests
import re
# 下载一个网页
url = 'https://www.biquge.tw/75_75273/3900155.html'
# 模拟浏览器发送http请求
response = requests.get(url)
# 编码方式
response.encoding='utf-8'
# 目标小说主页的网页源码
html = response.text
print(html)

1、编写爬虫思路:

确定下载目标,找到网页,找到网页中需要的内容。对数据进行处理。保存数据。

2、知识点说明:

1)确定网络中需要的信息,打开网页后使用F12打开开发者模式。

在Network中可以看到很多信息,我们在页面上看到的文字信息都保存在一个html文件中。点击文件后可以看到response,文字信息都包含在response中。

对于需要输入的信息,可以使用ctrl+f,进行搜索。查看信息前后包含哪些特定字段。

对于超链接的提取,可以使用最左边的箭头点击超链接,这时Elements会打开有该条超链接的信息,从中判断需要提取的信息。从下载小说来看,在目录页提取出小说的链接和章节名。

2)注意编码格式

输入字符集一定要设置成utf-8。页面大多为GBK字符集。不设置会乱码。

内容扩展:

接下来我们了解一下爬取网页信息的步骤。

想要获得我们所需的数据分三步

第一步:使用BeautifulSoup解析网页

Soup = BeautifulSoup(html,'lxml')

第二步:描述想要爬去信息的东西在哪里。

信息 = Soup.select('???')

要知道它叫什么名字,如何去定位。

第三步:从标签中获得你想要的信息

<p>Something</p>

从标签中获取我们需要的信息,去掉一些没有用的结构,并且把我们获取的信息按照一定格式装在数据容器中,方便我们去查询。

以上就是python如何爬取网页中的文字的详细内容,更多关于python爬取网页文字的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
由Python运算π的值深入Python中科学计算的实现
Apr 17 Python
利用Python的装饰器解决Bottle框架中用户验证问题
Apr 24 Python
在Python的Django框架中编写编译函数
Jul 20 Python
详解Python自建logging模块
Jan 29 Python
详解flask入门模板引擎
Jul 18 Python
Python3 读、写Excel文件的操作方法
Oct 20 Python
python实现通过flask和前端进行数据收发
Aug 22 Python
Python json转字典字符方法实例解析
Apr 13 Python
基于 Python 实践感知器分类算法
Jan 07 Python
Python 无限级分类树状结构生成算法的实现
Jan 21 Python
Django利用AJAX技术实现博文实时搜索
May 06 Python
python单元测试之pytest的使用
Jun 07 Python
Python同时处理多个异常的方法
Jul 28 #Python
Python远程方法调用实现过程解析
Jul 28 #Python
Python 实现一个计时器
Jul 28 #Python
python爬虫要用到的库总结
Jul 28 #Python
Python常用类型转换实现代码实例
Jul 28 #Python
Python 如何创建一个线程池
Jul 28 #Python
matplotlib subplot绘制多个子图的方法示例
Jul 28 #Python
You might like
PHP中实现进程间通讯
2006/10/09 PHP
简单实例处理url特殊符号&amp;处理(2种方法)
2013/04/02 Javascript
js中点击空白区域时文本框与隐藏层的显示与影藏问题
2013/08/26 Javascript
Jquery.addClass始终无效原因分析
2013/09/08 Javascript
jquery调整表格行tr上下顺序实例讲解
2016/01/09 Javascript
浅谈DOCTYPE对$(window).height()取值的影响
2016/07/21 Javascript
js 颜色选择插件
2017/01/23 Javascript
ES6新特性一: let和const命令详解
2017/04/20 Javascript
ES6中javascript实现函数绑定及类的事件绑定功能详解
2017/11/08 Javascript
利用jqprint插件打印页面内容的实现方法
2018/01/09 Javascript
vue  自定义组件实现通讯录功能
2018/09/30 Javascript
vue文件运行的方法教学
2019/02/12 Javascript
微信小程序实现图片翻转效果的实例代码
2019/09/20 Javascript
如何在wxml中直接写js代码(wxs)
2019/11/14 Javascript
ES6 Iterator遍历器原理,应用场景及相关常用知识拓展详解
2020/02/15 Javascript
原生JS生成指定位数的验证码
2020/10/28 Javascript
Vue中computed和watch有哪些区别
2020/12/19 Vue.js
python在命令行下使用google翻译(带语音)
2014/01/16 Python
python对数组进行反转的方法
2015/05/20 Python
Django的URLconf中使用缺省视图参数的方法
2015/07/18 Python
Python实现简单网页图片抓取完整代码实例
2017/12/15 Python
Django静态资源部署404问题解决方案
2020/05/11 Python
Django后端按照日期查询的方法教程
2021/02/28 Python
SteelSeries赛睿官网:游戏外设和配件的领先制造商(耳机、键盘、鼠标和鼠标垫)
2018/06/17 全球购物
C#中的验证控件有几种
2014/03/08 面试题
施工安全生产承诺书
2014/05/23 职场文书
2014民事授权委托书范本
2014/09/29 职场文书
离婚协议书怎么写
2015/01/26 职场文书
财政局长个人总结
2015/03/04 职场文书
结婚喜宴祝酒词
2015/08/10 职场文书
思想工作总结范文
2015/08/12 职场文书
创业计划书之养殖业
2019/10/11 职场文书
你喜欢篮球吗?Python实现篮球游戏
2021/06/11 Python
解决pycharm下载库时出现Failed to install package的问题
2021/09/04 Python
python编程学习使用管道Pipe编写优化代码
2021/11/20 Python
解析MySQL索引的作用
2022/03/03 MySQL