python如何爬取网页中的文字


Posted in Python onJuly 28, 2020

用Python进行爬取网页文字的代码:

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import requests
import re
# 下载一个网页
url = 'https://www.biquge.tw/75_75273/3900155.html'
# 模拟浏览器发送http请求
response = requests.get(url)
# 编码方式
response.encoding='utf-8'
# 目标小说主页的网页源码
html = response.text
print(html)

1、编写爬虫思路:

确定下载目标,找到网页,找到网页中需要的内容。对数据进行处理。保存数据。

2、知识点说明:

1)确定网络中需要的信息,打开网页后使用F12打开开发者模式。

在Network中可以看到很多信息,我们在页面上看到的文字信息都保存在一个html文件中。点击文件后可以看到response,文字信息都包含在response中。

对于需要输入的信息,可以使用ctrl+f,进行搜索。查看信息前后包含哪些特定字段。

对于超链接的提取,可以使用最左边的箭头点击超链接,这时Elements会打开有该条超链接的信息,从中判断需要提取的信息。从下载小说来看,在目录页提取出小说的链接和章节名。

2)注意编码格式

输入字符集一定要设置成utf-8。页面大多为GBK字符集。不设置会乱码。

内容扩展:

接下来我们了解一下爬取网页信息的步骤。

想要获得我们所需的数据分三步

第一步:使用BeautifulSoup解析网页

Soup = BeautifulSoup(html,'lxml')

第二步:描述想要爬去信息的东西在哪里。

信息 = Soup.select('???')

要知道它叫什么名字,如何去定位。

第三步:从标签中获得你想要的信息

<p>Something</p>

从标签中获取我们需要的信息,去掉一些没有用的结构,并且把我们获取的信息按照一定格式装在数据容器中,方便我们去查询。

以上就是python如何爬取网页中的文字的详细内容,更多关于python爬取网页文字的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
python 判断自定义对象类型
Mar 21 Python
Python中的with语句与上下文管理器学习总结
Jun 28 Python
python 转换 Javascript %u 字符串为python unicode的代码
Sep 06 Python
Python获取当前函数名称方法实例分享
Jan 18 Python
python的staticmethod与classmethod实现实例代码
Feb 11 Python
python 识别图片中的文字信息方法
May 10 Python
python字符串string的内置方法实例详解
May 14 Python
flask框架中勾子函数的使用详解
Aug 01 Python
Python打开文件,将list、numpy数组内容写入txt文件中的方法
Oct 26 Python
TensorFlow Autodiff自动微分详解
Jul 06 Python
Pycharm自带Git实现版本管理的方法步骤
Sep 18 Python
python 模拟登陆github的示例
Dec 04 Python
Python同时处理多个异常的方法
Jul 28 #Python
Python远程方法调用实现过程解析
Jul 28 #Python
Python 实现一个计时器
Jul 28 #Python
python爬虫要用到的库总结
Jul 28 #Python
Python常用类型转换实现代码实例
Jul 28 #Python
Python 如何创建一个线程池
Jul 28 #Python
matplotlib subplot绘制多个子图的方法示例
Jul 28 #Python
You might like
php获取文章上一页与下一页的方法
2014/12/01 PHP
php简单实现MVC
2015/02/05 PHP
PHP实现获取中英文首字母
2015/06/19 PHP
Thinkphp无限级分类代码
2015/11/11 PHP
Laravel Intervention/image图片处理扩展包的安装、使用与可能遇到的坑详解
2017/11/14 PHP
PHP 布尔值的自增与自减的实现方法
2018/05/03 PHP
javascript来定义类的规范小结
2010/11/19 Javascript
Javascript计算两个marker之间的距离(Google Map V3)
2013/04/26 Javascript
JSON取值前判断
2014/12/23 Javascript
js常用系统函数用法实例分析
2015/01/12 Javascript
浅谈jquery选择器 :first与:first-child的区别
2016/11/20 Javascript
Sequelize中用group by进行分组聚合查询
2016/12/12 Javascript
基于JSON数据格式详解
2017/08/31 Javascript
基于AngularJS的简单使用详解
2017/09/10 Javascript
jQuery实现轮播图及其原理详解
2020/04/12 jQuery
Node.js 进程平滑离场剖析小结
2019/01/24 Javascript
js tab栏切换代码实例解析
2019/09/03 Javascript
JavaScript直接调用函数与call调用的区别实例分析
2020/05/22 Javascript
python使用pil生成图片验证码的方法
2015/05/08 Python
celery4+django2定时任务的实现代码
2018/12/23 Python
python实现剪切功能
2019/01/23 Python
如何使用Python 打印各种三角形
2019/06/28 Python
新手如何发布Python项目开源包过程详解
2019/07/11 Python
使用pyecharts生成Echarts网页的实例
2019/08/12 Python
Python统计文本词汇出现次数的实例代码
2020/02/27 Python
基于Python的自媒体小助手---登录页面的实现代码
2020/06/29 Python
移动端开发HTML5页面点击按钮后出现闪烁或黑色背景的解决办法
2018/09/19 HTML / CSS
为中国消费者甄选天下优品:网易严选
2016/08/11 全球购物
高级文秘工作总结的自我评价
2013/09/28 职场文书
最新大学毕业求职简历的自我评价
2013/10/18 职场文书
幼儿园教研活动方案
2014/01/19 职场文书
聚美优品的广告词
2014/03/14 职场文书
企业仓管员岗位职责
2014/06/15 职场文书
美术学专业求职信
2014/07/23 职场文书
2014年学校总务处工作总结
2014/12/08 职场文书
MySQL系列之开篇 MySQL关系型数据库基础概念
2021/07/02 MySQL