python如何爬取网页中的文字


Posted in Python onJuly 28, 2020

用Python进行爬取网页文字的代码:

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import requests
import re
# 下载一个网页
url = 'https://www.biquge.tw/75_75273/3900155.html'
# 模拟浏览器发送http请求
response = requests.get(url)
# 编码方式
response.encoding='utf-8'
# 目标小说主页的网页源码
html = response.text
print(html)

1、编写爬虫思路:

确定下载目标,找到网页,找到网页中需要的内容。对数据进行处理。保存数据。

2、知识点说明:

1)确定网络中需要的信息,打开网页后使用F12打开开发者模式。

在Network中可以看到很多信息,我们在页面上看到的文字信息都保存在一个html文件中。点击文件后可以看到response,文字信息都包含在response中。

对于需要输入的信息,可以使用ctrl+f,进行搜索。查看信息前后包含哪些特定字段。

对于超链接的提取,可以使用最左边的箭头点击超链接,这时Elements会打开有该条超链接的信息,从中判断需要提取的信息。从下载小说来看,在目录页提取出小说的链接和章节名。

2)注意编码格式

输入字符集一定要设置成utf-8。页面大多为GBK字符集。不设置会乱码。

内容扩展:

接下来我们了解一下爬取网页信息的步骤。

想要获得我们所需的数据分三步

第一步:使用BeautifulSoup解析网页

Soup = BeautifulSoup(html,'lxml')

第二步:描述想要爬去信息的东西在哪里。

信息 = Soup.select('???')

要知道它叫什么名字,如何去定位。

第三步:从标签中获得你想要的信息

<p>Something</p>

从标签中获取我们需要的信息,去掉一些没有用的结构,并且把我们获取的信息按照一定格式装在数据容器中,方便我们去查询。

以上就是python如何爬取网页中的文字的详细内容,更多关于python爬取网页文字的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
忘记ftp密码使用python ftplib库暴力破解密码的方法示例
Jan 22 Python
web.py获取上传文件名的正确方法
Aug 26 Python
对pandas中apply函数的用法详解
Apr 10 Python
python实现简单登陆流程的方法
Apr 22 Python
python re模块的高级用法详解
Jun 06 Python
Python 打印中文字符的三种方法
Aug 14 Python
python使用Matplotlib绘制分段函数
Sep 25 Python
python 获取url中的参数列表实例
Dec 18 Python
Python实现的IP端口扫描工具类示例
Feb 15 Python
python实现对象列表根据某个属性排序的方法详解
Jun 11 Python
pytorch 彩色图像转灰度图像实例
Jan 13 Python
matplotlib 画动态图以及plt.ion()和plt.ioff()的使用详解
Jan 05 Python
Python同时处理多个异常的方法
Jul 28 #Python
Python远程方法调用实现过程解析
Jul 28 #Python
Python 实现一个计时器
Jul 28 #Python
python爬虫要用到的库总结
Jul 28 #Python
Python常用类型转换实现代码实例
Jul 28 #Python
Python 如何创建一个线程池
Jul 28 #Python
matplotlib subplot绘制多个子图的方法示例
Jul 28 #Python
You might like
PHP 身份证号验证函数
2009/05/07 PHP
php下关于中英数字混排的字符串分割问题
2010/04/06 PHP
PHP 实现类似js中alert() 提示框
2015/03/18 PHP
php解析字符串里所有URL地址的方法
2015/04/03 PHP
Javascript学习笔记9 prototype封装继承
2010/01/11 Javascript
jquery实现居中弹出层代码
2010/08/25 Javascript
JS通过分析userAgent属性来判断浏览器的类型及版本
2014/03/28 Javascript
JavaScript和CSS交互的方法汇总
2014/12/02 Javascript
JavaScript中的变量定义与储存介绍
2014/12/31 Javascript
jQuery+jRange实现滑动选取数值范围特效
2015/03/14 Javascript
JS模拟按钮点击功能的方法
2015/12/22 Javascript
jQuery实现图片轮播效果代码(基于jquery.pack.js插件)
2016/06/02 Javascript
JS工作中的小贴士之”闭包“与事件委托的”阻止冒泡“
2016/06/16 Javascript
浅谈AngularJS中ng-class的使用方法
2016/11/11 Javascript
Vue2.2.0+新特性整理及注意事项
2018/08/22 Javascript
vue里面使用mui的弹出日期选择插件实例
2018/09/16 Javascript
微信小程序如何获取用户收货地址
2018/11/27 Javascript
微信小程序实现搜索功能并跳转搜索结果页面
2019/05/18 Javascript
layui表格 列自动适应大小失效的解决方法
2019/09/06 Javascript
vue elementui 实现搜索栏公共组件封装的实例代码
2020/01/20 Javascript
vue中的循环对象属性和属性值用法
2020/09/04 Javascript
Vue 数据响应式相关总结
2021/01/28 Vue.js
简单介绍Python中利用生成器实现的并发编程
2015/05/04 Python
深入探究Python中变量的拷贝和作用域问题
2015/05/05 Python
Python生成不重复随机值的方法
2015/05/11 Python
python pandas 对series和dataframe的重置索引reindex方法
2018/06/07 Python
Python并发之多进程的方法实例代码
2018/08/15 Python
Django使用中间键实现csrf认证详解
2019/07/22 Python
python GUI编程(Tkinter) 创建子窗口及在窗口上用图片绘图实例
2020/03/04 Python
python如何建立全零数组
2020/07/19 Python
超市业务员岗位职责
2013/12/05 职场文书
租赁意向书范本
2014/04/01 职场文书
小学英语课教学反思
2016/02/15 职场文书
高二语文教学反思
2016/02/16 职场文书
SpringBoot集成Druid连接池连接MySQL8.0.11
2021/07/02 Java/Android
nginx访问报403错误的几种情况详解
2022/07/23 Servers