python如何爬取网页中的文字


Posted in Python onJuly 28, 2020

用Python进行爬取网页文字的代码:

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import requests
import re
# 下载一个网页
url = 'https://www.biquge.tw/75_75273/3900155.html'
# 模拟浏览器发送http请求
response = requests.get(url)
# 编码方式
response.encoding='utf-8'
# 目标小说主页的网页源码
html = response.text
print(html)

1、编写爬虫思路:

确定下载目标,找到网页,找到网页中需要的内容。对数据进行处理。保存数据。

2、知识点说明:

1)确定网络中需要的信息,打开网页后使用F12打开开发者模式。

在Network中可以看到很多信息,我们在页面上看到的文字信息都保存在一个html文件中。点击文件后可以看到response,文字信息都包含在response中。

对于需要输入的信息,可以使用ctrl+f,进行搜索。查看信息前后包含哪些特定字段。

对于超链接的提取,可以使用最左边的箭头点击超链接,这时Elements会打开有该条超链接的信息,从中判断需要提取的信息。从下载小说来看,在目录页提取出小说的链接和章节名。

2)注意编码格式

输入字符集一定要设置成utf-8。页面大多为GBK字符集。不设置会乱码。

内容扩展:

接下来我们了解一下爬取网页信息的步骤。

想要获得我们所需的数据分三步

第一步:使用BeautifulSoup解析网页

Soup = BeautifulSoup(html,'lxml')

第二步:描述想要爬去信息的东西在哪里。

信息 = Soup.select('???')

要知道它叫什么名字,如何去定位。

第三步:从标签中获得你想要的信息

<p>Something</p>

从标签中获取我们需要的信息,去掉一些没有用的结构,并且把我们获取的信息按照一定格式装在数据容器中,方便我们去查询。

以上就是python如何爬取网页中的文字的详细内容,更多关于python爬取网页文字的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
动态创建类实例代码
Oct 07 Python
Python multiprocessing模块中的Pipe管道使用实例
Apr 11 Python
python安装mysql-python简明笔记(ubuntu环境)
Jun 25 Python
利用python批量检查网站的可用性
Sep 09 Python
Python实现PS滤镜Fish lens图像扭曲效果示例
Jan 29 Python
Flask 让jsonify返回的json串支持中文显示的方法
Mar 26 Python
python 获取字符串MD5值方法
May 29 Python
Pycharm设置utf-8自动显示方法
Jan 17 Python
在Python中实现函数重载的示例代码
Dec 12 Python
解决windows下python3使用multiprocessing.Pool出现的问题
Apr 08 Python
python 给图像添加透明度(alpha通道)
Apr 09 Python
Python之字符串的遍历的4种方式
Dec 08 Python
Python同时处理多个异常的方法
Jul 28 #Python
Python远程方法调用实现过程解析
Jul 28 #Python
Python 实现一个计时器
Jul 28 #Python
python爬虫要用到的库总结
Jul 28 #Python
Python常用类型转换实现代码实例
Jul 28 #Python
Python 如何创建一个线程池
Jul 28 #Python
matplotlib subplot绘制多个子图的方法示例
Jul 28 #Python
You might like
PHP安装攻略:常见问题解答(三)
2006/10/09 PHP
PHP 判断变量类型实现代码
2009/10/23 PHP
php计算到指定日期还有多少天的方法
2015/04/14 PHP
PHP获取昨天、今天及明天日期的方法
2016/02/03 PHP
PHP实现自动发送邮件功能代码(qq 邮箱)
2017/08/18 PHP
如何通过View::first使用Laravel Blade的动态模板详解
2017/09/21 PHP
再次更新!MSClass (Class Of Marquee Scroll通用不间断滚动JS封装类 Ver 1.6)
2007/02/05 Javascript
THREE.JS入门教程(5)你应当知道的十件事
2013/01/24 Javascript
JavaScript中发布/订阅模式的简单实例
2014/11/05 Javascript
初步认识JavaScript函数库jQuery
2015/06/18 Javascript
清除输入框内的空格
2016/12/21 Javascript
Vue全家桶实践项目总结(推荐)
2017/11/04 Javascript
浅谈angular4.0中路由传递参数、获取参数最nice的写法
2018/03/12 Javascript
JavaScript Reflect Metadata实现详解
2019/12/12 Javascript
Python中scatter函数参数及用法详解
2017/11/08 Python
sublime python3 输入换行不结束的方法
2018/04/19 Python
使用python将请求的requests headers参数格式化方法
2019/01/02 Python
python cumsum函数的具体使用
2019/07/29 Python
django创建最简单HTML页面跳转方法
2019/08/16 Python
详解Python中的编码问题(encoding与decode、str与bytes)
2020/09/30 Python
Pycharm安装第三方库失败解决方案
2020/11/17 Python
html5 canvas 简单画板实现代码
2012/01/05 HTML / CSS
美国知名的女性服饰品牌:LOFT(洛芙特)
2016/08/05 全球购物
台湾旅游网站:灿星旅游
2018/10/11 全球购物
匈牙利最大的健身制造商和销售商:inSPORTline
2018/10/30 全球购物
Tomcat中怎么使用log4j输出所有的log
2016/07/07 面试题
函授教育个人学习的自我评价
2013/12/31 职场文书
《夜晚的实验》教学反思
2014/02/19 职场文书
促销活动总结报告
2014/04/26 职场文书
2014银行领导班子群众路线对照检查材料思想汇报
2014/09/17 职场文书
教师工作表现评语
2014/12/31 职场文书
天下第一关导游词
2015/02/06 职场文书
拾金不昧表扬信怎么写
2015/05/04 职场文书
格林童话读书笔记
2015/06/30 职场文书
nginx对http请求处理的各个阶段详析
2021/03/31 Servers
win10如何开启ahci模式?win10开启ahci模式详细操作教程
2022/07/23 数码科技