python如何爬取网页中的文字


Posted in Python onJuly 28, 2020

用Python进行爬取网页文字的代码:

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import requests
import re
# 下载一个网页
url = 'https://www.biquge.tw/75_75273/3900155.html'
# 模拟浏览器发送http请求
response = requests.get(url)
# 编码方式
response.encoding='utf-8'
# 目标小说主页的网页源码
html = response.text
print(html)

1、编写爬虫思路:

确定下载目标,找到网页,找到网页中需要的内容。对数据进行处理。保存数据。

2、知识点说明:

1)确定网络中需要的信息,打开网页后使用F12打开开发者模式。

在Network中可以看到很多信息,我们在页面上看到的文字信息都保存在一个html文件中。点击文件后可以看到response,文字信息都包含在response中。

对于需要输入的信息,可以使用ctrl+f,进行搜索。查看信息前后包含哪些特定字段。

对于超链接的提取,可以使用最左边的箭头点击超链接,这时Elements会打开有该条超链接的信息,从中判断需要提取的信息。从下载小说来看,在目录页提取出小说的链接和章节名。

2)注意编码格式

输入字符集一定要设置成utf-8。页面大多为GBK字符集。不设置会乱码。

内容扩展:

接下来我们了解一下爬取网页信息的步骤。

想要获得我们所需的数据分三步

第一步:使用BeautifulSoup解析网页

Soup = BeautifulSoup(html,'lxml')

第二步:描述想要爬去信息的东西在哪里。

信息 = Soup.select('???')

要知道它叫什么名字,如何去定位。

第三步:从标签中获得你想要的信息

<p>Something</p>

从标签中获取我们需要的信息,去掉一些没有用的结构,并且把我们获取的信息按照一定格式装在数据容器中,方便我们去查询。

以上就是python如何爬取网页中的文字的详细内容,更多关于python爬取网页文字的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
python错误:AttributeError: 'module' object has no attribute 'setdefaultencoding'问题的解决方法
Aug 22 Python
Python实现的下载8000首儿歌的代码分享
Nov 21 Python
详解python开发环境搭建
Dec 16 Python
python检索特定内容的文本文件实例
Jun 05 Python
python实现矩阵打印
Mar 02 Python
pyqt5与matplotlib的完美结合实例
Jun 21 Python
Python实现Singleton模式的方式详解
Aug 08 Python
Python实现清理微信僵尸粉功能示例【基于itchat模块】
May 29 Python
python 在sql语句中使用%s,%d,%f说明
Jun 06 Python
Python logging模块异步线程写日志实现过程解析
Jun 30 Python
python神经网络ResNet50模型
May 06 Python
python中pd.cut()与pd.qcut()的对比及示例
Jun 16 Python
Python同时处理多个异常的方法
Jul 28 #Python
Python远程方法调用实现过程解析
Jul 28 #Python
Python 实现一个计时器
Jul 28 #Python
python爬虫要用到的库总结
Jul 28 #Python
Python常用类型转换实现代码实例
Jul 28 #Python
Python 如何创建一个线程池
Jul 28 #Python
matplotlib subplot绘制多个子图的方法示例
Jul 28 #Python
You might like
JAVA/JSP学习系列之二
2006/10/09 PHP
使用Sphinx对索引进行搜索
2013/06/25 PHP
5种PHP创建数组的实例代码分享
2014/01/17 PHP
测试php连接mysql是否成功的代码分享
2014/01/24 PHP
PHP socket 模拟POST 请求实例代码
2016/07/18 PHP
php微信开发自定义菜单
2016/08/27 PHP
在云虚拟主机部署thinkphp5项目的步骤详解
2017/12/21 PHP
PHP使用pdo实现事务处理操作示例
2018/09/05 PHP
Laravel访问出错提示:`Warning: require(/vendor/autoload.php): failed to open stream: No such file or di解决方法
2019/04/02 PHP
一些有用的JavaScript和jQuery的片段分享
2011/08/23 Javascript
微信小程序 数据交互与渲染实例详解
2017/01/21 Javascript
jQuery的中 is(':visible') 解析及用法(必看)
2017/02/12 Javascript
原生js仿浏览器滚动条效果
2017/03/02 Javascript
利用jQuery实现一个简单的表格上下翻页效果
2017/03/14 Javascript
详解React开发中使用require.ensure()按需加载ES6组件
2017/05/12 Javascript
浅谈如何使用 webpack 优化资源
2017/10/20 Javascript
JS实现图片放大镜插件详解
2017/11/06 Javascript
bootstrap treeview 扩展addNode方法动态添加子节点的方法
2017/11/21 Javascript
基于three.js编写的一个项目类示例代码
2018/01/05 Javascript
浅谈Vuex注入Vue生命周期的过程
2019/05/20 Javascript
vue+element树组件 实现树懒加载的过程详解
2019/10/21 Javascript
easyUI使用分页过滤器对数据进行分页操作实例分析
2020/06/01 Javascript
在Python程序中进行文件读取和写入操作的教程
2015/04/28 Python
python进行文件对比的方法
2018/12/24 Python
python实现将多个文件分配到多个文件夹的方法
2019/01/07 Python
python 批量添加的button 使用同一点击事件的方法
2019/07/17 Python
下载与当前Chrome对应的chromedriver.exe(用于python+selenium)
2020/01/14 Python
Python dict的常用方法示例代码
2020/06/23 Python
美国购买韩国护肤和美容产品网站:Althea Korea
2020/11/16 全球购物
What's the difference between an interface and abstract class? (接口与抽象类有什么区别)
2012/10/29 面试题
餐厅总厨求职信
2014/03/04 职场文书
应届生求职自荐信范文
2014/04/07 职场文书
社会实践活动总结报告
2014/04/29 职场文书
2015年业务工作总结范文
2015/04/10 职场文书
创业计划书之密室逃脱
2019/11/08 职场文书
基于Golang 高并发问题的解决方案
2021/05/08 Golang