编程 Python

python如何爬取网页中的文字

Posted in Python onJuly 28, 2020

用Python进行爬取网页文字的代码：

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import requests
import re
# 下载一个网页
url = 'https://www.biquge.tw/75_75273/3900155.html'
# 模拟浏览器发送http请求
response = requests.get(url)
# 编码方式
response.encoding='utf-8'
# 目标小说主页的网页源码
html = response.text
print(html)

1、编写爬虫思路：

确定下载目标，找到网页，找到网页中需要的内容。对数据进行处理。保存数据。

2、知识点说明：

1）确定网络中需要的信息，打开网页后使用F12打开开发者模式。

在Network中可以看到很多信息，我们在页面上看到的文字信息都保存在一个html文件中。点击文件后可以看到response，文字信息都包含在response中。

对于需要输入的信息，可以使用ctrl+f，进行搜索。查看信息前后包含哪些特定字段。

对于超链接的提取，可以使用最左边的箭头点击超链接，这时Elements会打开有该条超链接的信息，从中判断需要提取的信息。从下载小说来看，在目录页提取出小说的链接和章节名。

2）注意编码格式

输入字符集一定要设置成utf-8。页面大多为GBK字符集。不设置会乱码。

内容扩展：

接下来我们了解一下爬取网页信息的步骤。

想要获得我们所需的数据分三步

第一步：使用BeautifulSoup解析网页

Soup = BeautifulSoup(html,'lxml')

第二步：描述想要爬去信息的东西在哪里。

信息 = Soup.select('???')

要知道它叫什么名字，如何去定位。

第三步：从标签中获得你想要的信息

<p>Something</p>

从标签中获取我们需要的信息，去掉一些没有用的结构，并且把我们获取的信息按照一定格式装在数据容器中，方便我们去查询。

以上就是python如何爬取网页中的文字的详细内容，更多关于python爬取网页文字的资料请关注三水点靠木其它相关文章！

python如何爬取网页中的文字

- Author -

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

用Python实现协同过滤的教程

Apr 08 Python

python简单读取大文件的方法

Jul 01 Python

利用Python爬取可用的代理IP

Aug 18 Python

详解python3百度指数抓取实例

Dec 12 Python

python环形单链表的约瑟夫问题详解

Sep 27 Python

python中正则表达式 re.findall 用法

Oct 23 Python

解决python3中cv2读取中文路径的问题

Dec 05 Python

Python模块的加载讲解

Jan 15 Python

python库matplotlib绘制坐标图

Oct 18 Python

python tkinter控件布局项目实例

Nov 04 Python

Python + Requests + Unittest接口自动化测试实例分析

Dec 12 Python

Python pip配置国内源的方法

Feb 14 Python

Python同时处理多个异常的方法

Jul 28 #Python

Python远程方法调用实现过程解析

Jul 28 #Python

Python 实现一个计时器

Jul 28 #Python

python爬虫要用到的库总结

Jul 28 #Python

Python常用类型转换实现代码实例

Jul 28 #Python

Python 如何创建一个线程池

Jul 28 #Python

matplotlib subplot绘制多个子图的方法示例

Jul 28 #Python

You might like

php字符串函数学习之strstr()

2015/03/27 PHP

PHP简单判断iPhone、iPad、Android及PC设备的方法

2016/10/11 PHP

Laravel框架使用Seeder实现自动填充数据功能

2018/06/13 PHP

php 使用html5 XHR2实现上传文件与进度显示功能示例

2020/03/03 PHP

解决jquery异步按一定的时间间隔刷新问题

2012/12/10 Javascript

js读取被点击次数的简单实例(从数据库中读取)

2014/03/07 Javascript

jQuery仿Flash上下翻动的中英文导航菜单实例

2015/03/10 Javascript

JQuery实现动态添加删除评论的方法

2015/05/18 Javascript

win7下安装配置node.js+express开发环境

2015/12/06 Javascript

AngularJS 路由和模板实例及路由地址简化方法(必看)

2016/06/24 Javascript

JavaScript九九乘法口诀表的简单实现

2016/10/04 Javascript

关于iframe跨域POST提交的方法示例

2017/01/15 Javascript

Javascript操作dom对象之select全面解析

2017/04/24 Javascript

微信小程序实例开发总结

2017/04/26 Javascript

20行JS代码实现网页刮刮乐效果

2017/06/23 Javascript

Vue按需加载的具体实现

2017/12/02 Javascript

Node.js实现注册邮箱激活功能的方法示例

2018/03/23 Javascript

TypeScript魔法堂之枚举的超实用手册

2020/10/29 Javascript

[01:08:29]DOTA2-DPC中国联赛定级赛 RNG vs Aster BO3第一场 1月9日

2021/03/11 DOTA

关于python的list相关知识(推荐)

2017/08/30 Python

python实现创建新列表和新字典,并使元素及键值对全部变成小写

2019/01/15 Python

基于Django框架的权限组件rbac实例讲解

2019/08/31 Python

python GUI库图形界面开发之PyQt5切换按钮控件QPushButton详细使用方法与实例

2020/02/28 Python

多个版本的python共存时使用pip的正确做法

2020/10/26 Python

requests在python中发送请求的实例讲解

2021/02/17 Python

LocalStorage记住用户和密码功能

2017/07/24 HTML / CSS

西班牙美妆电商：Perfume’s Club（有中文站）

2018/08/08 全球购物

电子信息专业学生自荐信

2013/11/09 职场文书

前厅收银主管岗位职责

2014/02/04 职场文书

职工趣味运动会方案

2014/02/10 职场文书

学校消防演习方案

2014/02/19 职场文书

售房委托书

2014/08/30 职场文书

2014党员四风对照检查材料思想汇报

2014/09/17 职场文书

违章停车检讨书

2014/10/21 职场文书

2016教师党员学习心得体会

2016/01/21 职场文书

使用ICOM IC-R9500接收机同时测评十台收音机中波接收性能

2022/05/10 无线电