python如何爬取网页中的文字


Posted in Python onJuly 28, 2020

用Python进行爬取网页文字的代码:

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import requests
import re
# 下载一个网页
url = 'https://www.biquge.tw/75_75273/3900155.html'
# 模拟浏览器发送http请求
response = requests.get(url)
# 编码方式
response.encoding='utf-8'
# 目标小说主页的网页源码
html = response.text
print(html)

1、编写爬虫思路:

确定下载目标,找到网页,找到网页中需要的内容。对数据进行处理。保存数据。

2、知识点说明:

1)确定网络中需要的信息,打开网页后使用F12打开开发者模式。

在Network中可以看到很多信息,我们在页面上看到的文字信息都保存在一个html文件中。点击文件后可以看到response,文字信息都包含在response中。

对于需要输入的信息,可以使用ctrl+f,进行搜索。查看信息前后包含哪些特定字段。

对于超链接的提取,可以使用最左边的箭头点击超链接,这时Elements会打开有该条超链接的信息,从中判断需要提取的信息。从下载小说来看,在目录页提取出小说的链接和章节名。

2)注意编码格式

输入字符集一定要设置成utf-8。页面大多为GBK字符集。不设置会乱码。

内容扩展:

接下来我们了解一下爬取网页信息的步骤。

想要获得我们所需的数据分三步

第一步:使用BeautifulSoup解析网页

Soup = BeautifulSoup(html,'lxml')

第二步:描述想要爬去信息的东西在哪里。

信息 = Soup.select('???')

要知道它叫什么名字,如何去定位。

第三步:从标签中获得你想要的信息

<p>Something</p>

从标签中获取我们需要的信息,去掉一些没有用的结构,并且把我们获取的信息按照一定格式装在数据容器中,方便我们去查询。

以上就是python如何爬取网页中的文字的详细内容,更多关于python爬取网页文字的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
python实现批量转换文件编码(批转换编码示例)
Jan 23 Python
深入浅析Python字符编码
Nov 12 Python
Python编程之微信推送模板消息功能示例
Aug 21 Python
python中numpy的矩阵、多维数组的用法
Feb 05 Python
10 行 Python 代码教你自动发送短信(不想回复工作邮件妙招)
Oct 11 Python
python 解决动态的定义变量名,并给其赋值的方法(大数据处理)
Nov 10 Python
Python3爬虫学习之将爬取的信息保存到本地的方法详解
Dec 12 Python
python将字符串转变成dict格式的实现
Nov 18 Python
Python如何实现爬取B站视频
May 20 Python
基于tensorflow __init__、build 和call的使用小结
Feb 26 Python
浅谈Python基础之列表那些事儿
May 11 Python
Python一些基本的图像操作和处理总结
Jun 23 Python
Python同时处理多个异常的方法
Jul 28 #Python
Python远程方法调用实现过程解析
Jul 28 #Python
Python 实现一个计时器
Jul 28 #Python
python爬虫要用到的库总结
Jul 28 #Python
Python常用类型转换实现代码实例
Jul 28 #Python
Python 如何创建一个线程池
Jul 28 #Python
matplotlib subplot绘制多个子图的方法示例
Jul 28 #Python
You might like
世界上第一台立体声收音机
2021/03/01 无线电
关于mysql 字段的那个点为是定界符
2007/01/15 PHP
hadoop常见错误以及处理方法详解
2013/06/19 PHP
php 在字符串指定位置插入新字符的简单实现
2016/06/28 PHP
laradock环境docker-compose操作详解
2019/07/29 PHP
js检测浏览器版本、核心、是否移动端示例
2014/04/24 Javascript
EasyUI,点击开启编辑框,并且编辑框获得焦点的方法
2015/03/01 Javascript
jQuery模拟黑客帝国矩阵效果实例
2015/06/28 Javascript
jquery对象访问是什么及使用方法介绍
2016/05/03 Javascript
JS for...in 遍历语句用法实例分析
2016/08/24 Javascript
jQuery.cookie.js实现记录最近浏览过的商品功能示例
2017/01/23 Javascript
微信小程序实现带刻度尺滑块功能
2017/03/29 Javascript
nodejs body-parser 解析post数据实例
2017/07/26 NodeJs
详解VUE2.X过滤器的使用方法
2018/01/11 Javascript
jQuery NProgress.js加载进度插件的简单使用方法
2018/01/31 jQuery
深入理解JavaScript和TypeScript中的class
2018/04/22 Javascript
webpack4 css打包压缩问题的解决
2018/05/18 Javascript
javascript function(函数类型)使用与注意事项小结
2019/06/10 Javascript
Vue父子组件传值的一些坑
2020/09/16 Javascript
解决Vue-cli无法编译es6的问题
2020/10/30 Javascript
用Python程序抓取网页的HTML信息的一个小实例
2015/05/02 Python
用Python的Django框架来制作一个RSS阅读器
2015/07/22 Python
Python使用正则表达式过滤或替换HTML标签的方法详解
2017/09/25 Python
python判断计算机是否有网络连接的实例
2018/12/15 Python
用Python将结果保存为xlsx的方法
2019/01/28 Python
使用Pandas的Series方法绘制图像教程
2019/12/04 Python
Python列表list操作相关知识小结
2020/01/29 Python
python实现将中文日期转换为数字日期
2020/07/14 Python
如何通过python检查文件是否被占用
2020/12/18 Python
CSS去掉A标签(链接)虚线框的方法
2014/04/01 HTML / CSS
HomeAway的巴西品牌:Alugue Temporada
2018/04/10 全球购物
Tiqets英国:智能手机上的文化和娱乐门票
2019/07/10 全球购物
《木笛》教学反思
2014/03/01 职场文书
党员评议表自我评价范文
2014/10/20 职场文书
vue如何在data中引入图片的正确路径
2022/06/05 Vue.js
Hive导入csv文件示例
2022/06/25 数据库