python如何爬取网页中的文字


Posted in Python onJuly 28, 2020

用Python进行爬取网页文字的代码:

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import requests
import re
# 下载一个网页
url = 'https://www.biquge.tw/75_75273/3900155.html'
# 模拟浏览器发送http请求
response = requests.get(url)
# 编码方式
response.encoding='utf-8'
# 目标小说主页的网页源码
html = response.text
print(html)

1、编写爬虫思路:

确定下载目标,找到网页,找到网页中需要的内容。对数据进行处理。保存数据。

2、知识点说明:

1)确定网络中需要的信息,打开网页后使用F12打开开发者模式。

在Network中可以看到很多信息,我们在页面上看到的文字信息都保存在一个html文件中。点击文件后可以看到response,文字信息都包含在response中。

对于需要输入的信息,可以使用ctrl+f,进行搜索。查看信息前后包含哪些特定字段。

对于超链接的提取,可以使用最左边的箭头点击超链接,这时Elements会打开有该条超链接的信息,从中判断需要提取的信息。从下载小说来看,在目录页提取出小说的链接和章节名。

2)注意编码格式

输入字符集一定要设置成utf-8。页面大多为GBK字符集。不设置会乱码。

内容扩展:

接下来我们了解一下爬取网页信息的步骤。

想要获得我们所需的数据分三步

第一步:使用BeautifulSoup解析网页

Soup = BeautifulSoup(html,'lxml')

第二步:描述想要爬去信息的东西在哪里。

信息 = Soup.select('???')

要知道它叫什么名字,如何去定位。

第三步:从标签中获得你想要的信息

<p>Something</p>

从标签中获取我们需要的信息,去掉一些没有用的结构,并且把我们获取的信息按照一定格式装在数据容器中,方便我们去查询。

以上就是python如何爬取网页中的文字的详细内容,更多关于python爬取网页文字的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
python调用机器喇叭发出蜂鸣声(Beep)的方法
Mar 23 Python
Python正则表达式使用范例分享
Dec 04 Python
python实现稀疏矩阵示例代码
Jun 09 Python
Python实现对一个函数应用多个装饰器的方法示例
Feb 09 Python
Python实现k-means算法
Feb 23 Python
pandas groupby 分组取每组的前几行记录方法
Apr 20 Python
python Selenium实现付费音乐批量下载的实现方法
Jan 24 Python
Python selenium根据class定位页面元素的方法
Feb 26 Python
如何在Cloud Studio上执行Python代码?
Aug 09 Python
用OpenCV将视频分解成单帧图片,图片合成视频示例
Dec 10 Python
Python 实现数组相减示例
Dec 27 Python
python3环境搭建过程(利用Anaconda+pycharm)完整版
Aug 19 Python
Python同时处理多个异常的方法
Jul 28 #Python
Python远程方法调用实现过程解析
Jul 28 #Python
Python 实现一个计时器
Jul 28 #Python
python爬虫要用到的库总结
Jul 28 #Python
Python常用类型转换实现代码实例
Jul 28 #Python
Python 如何创建一个线程池
Jul 28 #Python
matplotlib subplot绘制多个子图的方法示例
Jul 28 #Python
You might like
php实现天干地支计算器示例
2014/03/14 PHP
PHP获取QQ达人QQ信息的方法
2015/03/05 PHP
php htmlentities()函数的定义和用法
2016/05/13 PHP
php爬取天猫和淘宝商品数据
2018/02/23 PHP
tbody元素支持嵌套的注意方法
2007/03/24 Javascript
js null,undefined,字符串小结
2010/08/21 Javascript
浅谈JavaScript前端开发的MVC结构与MVVM结构
2016/06/03 Javascript
js事件冒泡、事件捕获和阻止默认事件详解
2016/08/04 Javascript
JavaScript String(字符串)对象的简单实例(推荐)
2016/08/31 Javascript
JS之获取样式的简单实现方法(推荐)
2016/09/13 Javascript
bootstrap table 表格中增加下拉菜单末行出现滚动条的快速解决方法
2017/01/05 Javascript
Vue学习笔记进阶篇之多元素及多组件过渡
2017/07/19 Javascript
Bootstrap Table 在指定列中添加下拉框控件并获取所选值
2017/07/31 Javascript
vue-router权限控制(简单方式)
2018/10/29 Javascript
vue实现微信分享功能
2018/11/28 Javascript
ES6 Promise对象的应用实例分析
2019/06/27 Javascript
微信小程序中悬浮窗功能的实现代码
2019/08/02 Javascript
jquery分页优化操作实例分析
2019/08/23 jQuery
vue动态合并单元格并添加小计合计功能示例
2020/11/26 Vue.js
Python的Django框架中的表单处理示例
2015/07/17 Python
python实现录音小程序
2020/10/26 Python
Django2.1集成xadmin管理后台所遇到的错误集锦(填坑)
2018/12/20 Python
Python装饰器基础概念与用法详解
2018/12/22 Python
python lambda表达式(匿名函数)写法解析
2019/09/16 Python
Django实现网页分页功能
2019/10/31 Python
Python使用jupyter notebook查看ipynb文件过程解析
2020/06/02 Python
PyTorch安装与基本使用详解
2020/08/31 Python
Django解决frame拒绝问题的方法
2020/12/18 Python
matplotlib部件之矩形选区(RectangleSelector)的实现
2021/02/01 Python
x-ua-compatible content=”IE=7, IE=9″意思理解
2013/07/22 HTML / CSS
美国办公用品购物网站:Quill.com
2016/09/01 全球购物
德国家具在线:Fashion For Home
2017/03/11 全球购物
Spartoo比利时:欧洲时尚购物网站
2017/12/06 全球购物
竞选大队长演讲稿
2014/04/29 职场文书
教师师德考核自我评价
2014/09/13 职场文书
汽车转让协议书范本
2014/12/07 职场文书