python如何爬取网页中的文字


Posted in Python onJuly 28, 2020

用Python进行爬取网页文字的代码:

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import requests
import re
# 下载一个网页
url = 'https://www.biquge.tw/75_75273/3900155.html'
# 模拟浏览器发送http请求
response = requests.get(url)
# 编码方式
response.encoding='utf-8'
# 目标小说主页的网页源码
html = response.text
print(html)

1、编写爬虫思路:

确定下载目标,找到网页,找到网页中需要的内容。对数据进行处理。保存数据。

2、知识点说明:

1)确定网络中需要的信息,打开网页后使用F12打开开发者模式。

在Network中可以看到很多信息,我们在页面上看到的文字信息都保存在一个html文件中。点击文件后可以看到response,文字信息都包含在response中。

对于需要输入的信息,可以使用ctrl+f,进行搜索。查看信息前后包含哪些特定字段。

对于超链接的提取,可以使用最左边的箭头点击超链接,这时Elements会打开有该条超链接的信息,从中判断需要提取的信息。从下载小说来看,在目录页提取出小说的链接和章节名。

2)注意编码格式

输入字符集一定要设置成utf-8。页面大多为GBK字符集。不设置会乱码。

内容扩展:

接下来我们了解一下爬取网页信息的步骤。

想要获得我们所需的数据分三步

第一步:使用BeautifulSoup解析网页

Soup = BeautifulSoup(html,'lxml')

第二步:描述想要爬去信息的东西在哪里。

信息 = Soup.select('???')

要知道它叫什么名字,如何去定位。

第三步:从标签中获得你想要的信息

<p>Something</p>

从标签中获取我们需要的信息,去掉一些没有用的结构,并且把我们获取的信息按照一定格式装在数据容器中,方便我们去查询。

以上就是python如何爬取网页中的文字的详细内容,更多关于python爬取网页文字的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
Python简单实现enum功能的方法
Apr 25 Python
分析Python中解析构建数据知识
Jan 20 Python
Python实现的计算马氏距离算法示例
Apr 03 Python
win7 x64系统中安装Scrapy的方法
Nov 18 Python
使用python批量修改文件名的方法(视频合并时)
Mar 24 Python
PYTHON实现SIGN签名的过程解析
Oct 28 Python
Python性能分析工具Profile使用实例
Nov 19 Python
python代码打印100-999之间的回文数示例
Nov 24 Python
python实现图片二值化及灰度处理方式
Dec 07 Python
Python爬虫爬取杭州24时温度并展示操作示例
Mar 27 Python
关于Python解包知识点总结
May 05 Python
python不同系统中打开方法
Jun 23 Python
Python同时处理多个异常的方法
Jul 28 #Python
Python远程方法调用实现过程解析
Jul 28 #Python
Python 实现一个计时器
Jul 28 #Python
python爬虫要用到的库总结
Jul 28 #Python
Python常用类型转换实现代码实例
Jul 28 #Python
Python 如何创建一个线程池
Jul 28 #Python
matplotlib subplot绘制多个子图的方法示例
Jul 28 #Python
You might like
一个用于MySQL的PHP XML类
2006/10/09 PHP
使用 eAccelerator加速PHP代码的目的
2007/03/16 PHP
php实现将数组转换为XML的方法
2015/03/09 PHP
PHP多进程编程实例详解
2017/07/19 PHP
PHP设计模式之装饰器模式定义与用法详解
2018/04/02 PHP
JavaScript OOP类与继承
2009/11/15 Javascript
JavaScript起点(严格模式深度了解)
2013/01/28 Javascript
js禁止document element对象选中文本实现代码
2013/03/21 Javascript
js冒泡、捕获事件及阻止冒泡方法详细总结
2014/05/08 Javascript
JavaScript实现文字与图片拖拽效果的方法
2015/02/16 Javascript
js实现鼠标触发图片抖动效果的方法
2015/02/27 Javascript
简介JavaScript中的setTime()方法的使用
2015/06/11 Javascript
javascript实现3D变换的立体圆圈实例
2015/08/06 Javascript
如何屏蔽防止别的网站嵌入框架代码
2015/08/24 Javascript
JavaScript必知必会(九)function 说起 闭包问题
2016/06/08 Javascript
JS取模、取商及取整运算方法示例
2016/10/13 Javascript
微信小程序 页面跳转及数据传递详解
2017/03/14 Javascript
使用node打造自己的命令行工具方法教程
2018/03/26 Javascript
vue axios请求超时的正确处理方法
2018/04/02 Javascript
详解vue使用插槽分发内容slot的用法
2019/03/28 Javascript
在Python中封装GObject模块进行图形化程序编程的教程
2015/04/14 Python
python超简单解决约瑟夫环问题
2015/05/12 Python
Pytorch保存模型用于测试和用于继续训练的区别详解
2020/01/10 Python
浅谈CSS3 动画卡顿解决方案
2019/01/02 HTML / CSS
德国体育用品网上商店:SC24.com
2016/08/01 全球购物
美国女孩服装购物网站:Justice
2017/03/04 全球购物
Lucene推荐的分页方式是什么?
2015/12/07 面试题
高级护理实习生自荐信
2013/09/28 职场文书
计算机科学与技术应届生求职信
2013/11/07 职场文书
综合实践教学反思
2014/01/31 职场文书
学习十八届三中全会精神实施方案
2014/02/17 职场文书
yy司仪主持词
2014/03/22 职场文书
城市创卫标语
2014/06/17 职场文书
PHP基本语法
2021/03/31 PHP
java解析XML详解
2021/07/09 Java/Android
vue3种table表格选项个数的控制方法
2022/04/14 Vue.js