python如何爬取网页中的文字


Posted in Python onJuly 28, 2020

用Python进行爬取网页文字的代码:

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import requests
import re
# 下载一个网页
url = 'https://www.biquge.tw/75_75273/3900155.html'
# 模拟浏览器发送http请求
response = requests.get(url)
# 编码方式
response.encoding='utf-8'
# 目标小说主页的网页源码
html = response.text
print(html)

1、编写爬虫思路:

确定下载目标,找到网页,找到网页中需要的内容。对数据进行处理。保存数据。

2、知识点说明:

1)确定网络中需要的信息,打开网页后使用F12打开开发者模式。

在Network中可以看到很多信息,我们在页面上看到的文字信息都保存在一个html文件中。点击文件后可以看到response,文字信息都包含在response中。

对于需要输入的信息,可以使用ctrl+f,进行搜索。查看信息前后包含哪些特定字段。

对于超链接的提取,可以使用最左边的箭头点击超链接,这时Elements会打开有该条超链接的信息,从中判断需要提取的信息。从下载小说来看,在目录页提取出小说的链接和章节名。

2)注意编码格式

输入字符集一定要设置成utf-8。页面大多为GBK字符集。不设置会乱码。

内容扩展:

接下来我们了解一下爬取网页信息的步骤。

想要获得我们所需的数据分三步

第一步:使用BeautifulSoup解析网页

Soup = BeautifulSoup(html,'lxml')

第二步:描述想要爬去信息的东西在哪里。

信息 = Soup.select('???')

要知道它叫什么名字,如何去定位。

第三步:从标签中获得你想要的信息

<p>Something</p>

从标签中获取我们需要的信息,去掉一些没有用的结构,并且把我们获取的信息按照一定格式装在数据容器中,方便我们去查询。

以上就是python如何爬取网页中的文字的详细内容,更多关于python爬取网页文字的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
用Python实现协同过滤的教程
Apr 08 Python
python简单读取大文件的方法
Jul 01 Python
利用Python爬取可用的代理IP
Aug 18 Python
详解python3百度指数抓取实例
Dec 12 Python
python环形单链表的约瑟夫问题详解
Sep 27 Python
python中正则表达式 re.findall 用法
Oct 23 Python
解决python3中cv2读取中文路径的问题
Dec 05 Python
Python模块的加载讲解
Jan 15 Python
python库matplotlib绘制坐标图
Oct 18 Python
python tkinter控件布局项目实例
Nov 04 Python
Python + Requests + Unittest接口自动化测试实例分析
Dec 12 Python
Python pip配置国内源的方法
Feb 14 Python
Python同时处理多个异常的方法
Jul 28 #Python
Python远程方法调用实现过程解析
Jul 28 #Python
Python 实现一个计时器
Jul 28 #Python
python爬虫要用到的库总结
Jul 28 #Python
Python常用类型转换实现代码实例
Jul 28 #Python
Python 如何创建一个线程池
Jul 28 #Python
matplotlib subplot绘制多个子图的方法示例
Jul 28 #Python
You might like
php字符串函数学习之strstr()
2015/03/27 PHP
PHP简单判断iPhone、iPad、Android及PC设备的方法
2016/10/11 PHP
Laravel框架使用Seeder实现自动填充数据功能
2018/06/13 PHP
php 使用html5 XHR2实现上传文件与进度显示功能示例
2020/03/03 PHP
解决jquery异步按一定的时间间隔刷新问题
2012/12/10 Javascript
js读取被点击次数的简单实例(从数据库中读取)
2014/03/07 Javascript
jQuery仿Flash上下翻动的中英文导航菜单实例
2015/03/10 Javascript
JQuery实现动态添加删除评论的方法
2015/05/18 Javascript
win7下安装配置node.js+express开发环境
2015/12/06 Javascript
AngularJS 路由和模板实例及路由地址简化方法(必看)
2016/06/24 Javascript
JavaScript九九乘法口诀表的简单实现
2016/10/04 Javascript
关于iframe跨域POST提交的方法示例
2017/01/15 Javascript
Javascript操作dom对象之select全面解析
2017/04/24 Javascript
微信小程序 实例开发总结
2017/04/26 Javascript
20行JS代码实现网页刮刮乐效果
2017/06/23 Javascript
Vue按需加载的具体实现
2017/12/02 Javascript
Node.js实现注册邮箱激活功能的方法示例
2018/03/23 Javascript
TypeScript魔法堂之枚举的超实用手册
2020/10/29 Javascript
[01:08:29]DOTA2-DPC中国联赛定级赛 RNG vs Aster BO3第一场 1月9日
2021/03/11 DOTA
关于python的list相关知识(推荐)
2017/08/30 Python
python实现创建新列表和新字典,并使元素及键值对全部变成小写
2019/01/15 Python
基于Django框架的权限组件rbac实例讲解
2019/08/31 Python
python GUI库图形界面开发之PyQt5切换按钮控件QPushButton详细使用方法与实例
2020/02/28 Python
多个版本的python共存时使用pip的正确做法
2020/10/26 Python
requests在python中发送请求的实例讲解
2021/02/17 Python
LocalStorage记住用户和密码功能
2017/07/24 HTML / CSS
西班牙美妆电商:Perfume’s Club(有中文站)
2018/08/08 全球购物
电子信息专业学生自荐信
2013/11/09 职场文书
前厅收银主管岗位职责
2014/02/04 职场文书
职工趣味运动会方案
2014/02/10 职场文书
学校消防演习方案
2014/02/19 职场文书
售房委托书
2014/08/30 职场文书
2014党员四风对照检查材料思想汇报
2014/09/17 职场文书
违章停车检讨书
2014/10/21 职场文书
2016教师党员学习心得体会
2016/01/21 职场文书
使用ICOM IC-R9500接收机同时测评十台收音机中波接收性能
2022/05/10 无线电