python如何爬取网页中的文字


Posted in Python onJuly 28, 2020

用Python进行爬取网页文字的代码:

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import requests
import re
# 下载一个网页
url = 'https://www.biquge.tw/75_75273/3900155.html'
# 模拟浏览器发送http请求
response = requests.get(url)
# 编码方式
response.encoding='utf-8'
# 目标小说主页的网页源码
html = response.text
print(html)

1、编写爬虫思路:

确定下载目标,找到网页,找到网页中需要的内容。对数据进行处理。保存数据。

2、知识点说明:

1)确定网络中需要的信息,打开网页后使用F12打开开发者模式。

在Network中可以看到很多信息,我们在页面上看到的文字信息都保存在一个html文件中。点击文件后可以看到response,文字信息都包含在response中。

对于需要输入的信息,可以使用ctrl+f,进行搜索。查看信息前后包含哪些特定字段。

对于超链接的提取,可以使用最左边的箭头点击超链接,这时Elements会打开有该条超链接的信息,从中判断需要提取的信息。从下载小说来看,在目录页提取出小说的链接和章节名。

2)注意编码格式

输入字符集一定要设置成utf-8。页面大多为GBK字符集。不设置会乱码。

内容扩展:

接下来我们了解一下爬取网页信息的步骤。

想要获得我们所需的数据分三步

第一步:使用BeautifulSoup解析网页

Soup = BeautifulSoup(html,'lxml')

第二步:描述想要爬去信息的东西在哪里。

信息 = Soup.select('???')

要知道它叫什么名字,如何去定位。

第三步:从标签中获得你想要的信息

<p>Something</p>

从标签中获取我们需要的信息,去掉一些没有用的结构,并且把我们获取的信息按照一定格式装在数据容器中,方便我们去查询。

以上就是python如何爬取网页中的文字的详细内容,更多关于python爬取网页文字的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
Python实现对比不同字体中的同一字符的显示效果
Apr 23 Python
Python入门_浅谈for循环、while循环
May 16 Python
Python实现自动发送邮件功能
Mar 02 Python
python实现识别手写数字 python图像识别算法
Mar 23 Python
Django后台获取前端post上传的文件方法
May 28 Python
深入了解Python iter() 方法的用法
Jul 11 Python
Python符号计算之实现函数极限的方法
Jul 15 Python
使用Pandas的Series方法绘制图像教程
Dec 04 Python
利用setuptools打包python程序的方法步骤
Jan 18 Python
Tensorflow 多线程与多进程数据加载实例
Feb 05 Python
从零开始的TensorFlow+VScode开发环境搭建的步骤(图文)
Aug 31 Python
python获取淘宝服务器时间的代码示例
Apr 22 Python
Python同时处理多个异常的方法
Jul 28 #Python
Python远程方法调用实现过程解析
Jul 28 #Python
Python 实现一个计时器
Jul 28 #Python
python爬虫要用到的库总结
Jul 28 #Python
Python常用类型转换实现代码实例
Jul 28 #Python
Python 如何创建一个线程池
Jul 28 #Python
matplotlib subplot绘制多个子图的方法示例
Jul 28 #Python
You might like
php intval的测试代码发现问题
2008/07/27 PHP
ThinkPHP后台首页index使用frameset时的注意事项分析
2014/08/22 PHP
用php来限制每个ip每天浏览页面数量的实现思路
2015/02/24 PHP
Firefox和IE浏览器兼容JS脚本写法小结
2008/07/07 Javascript
JavaScript asp.net 获取当前超链接中的文本
2009/04/14 Javascript
JavaScript Konami Code 实现代码
2009/07/29 Javascript
用js来解决ajax读取页面乱码
2010/11/28 Javascript
基于jquery的回到页面顶部按钮
2011/06/27 Javascript
使用jquery读取html5 localstorage的值的方法
2013/01/04 Javascript
让你的博客飘雪花超出屏幕依然看得见
2013/01/04 Javascript
Jquery实现仿新浪微博获取文本框能输入的字数代码
2013/02/22 Javascript
地址栏传递中文参数乱码在js里用escape转码
2013/08/28 Javascript
javascript抖动元素的小例子
2013/10/28 Javascript
jquery 3D 标签云示例代码
2014/06/12 Javascript
js实现选项卡内容切换以及折叠和展开效果【推荐】
2017/01/08 Javascript
自定义事件解决重复请求BUG的问题
2017/07/11 Javascript
jquery插件开发之选项卡制作详解
2017/08/30 jQuery
vue中element-ui表格缩略图悬浮放大功能的实例代码
2018/06/26 Javascript
vue2.0页面前进刷新回退不刷新的实现方法
2018/07/31 Javascript
详解JavaScript中的强制类型转换
2019/04/15 Javascript
微信小程序自定义弹出层效果
2020/05/26 Javascript
js实现翻牌小游戏
2020/07/31 Javascript
[50:45]2018DOTA2亚洲邀请赛 4.6 淘汰赛 VP vs TNC 第一场
2018/04/10 DOTA
[03:24][TI9纪实] Dota奶爸
2019/08/22 DOTA
Python中实现两个字典(dict)合并的方法
2014/09/23 Python
python实现微信发送邮件关闭电脑功能
2018/02/22 Python
Python操作Oracle数据库的简单方法和封装类实例
2018/05/07 Python
TensorFlow 滑动平均的示例代码
2018/06/19 Python
日本非常有名的内衣丝袜品牌:GUNZE
2017/01/06 全球购物
毕业生求职信的经典写法
2014/01/31 职场文书
小学领导班子对照材料
2014/08/23 职场文书
酒桌上的开场白
2015/06/01 职场文书
三傻大闹宝莱坞观后感
2015/06/03 职场文书
2015年市场营销工作总结
2015/07/23 职场文书
SQL实现LeetCode(177.第N高薪水)
2021/08/04 MySQL
MySQL常用慢查询分析工具详解
2022/08/14 MySQL