python爬虫获取新浪新闻教学


Posted in Python onDecember 23, 2018

一提到python,大家经常会提到爬虫,爬虫近来兴起的原因我觉得主要还是因为大数据的原因,大数据导致了我们的数据不在只存在于自己的服务器,而python语言的简便也成了爬虫工具的首要语言,我们这篇文章来讲下爬虫,爬取新浪新闻

1、

大家知道,爬虫实际上就是模拟浏览器请求,然后把请求到的数据,经过我们的分析,提取出我们想要的内容,这也就是爬虫的实现
大家知道,爬虫实际上就是模拟浏览器请求,然后把请求到的数据,经过我们的分析,提取出我们想要的内容,这也就是爬虫的实现

2、首先,我们要写爬虫,可以借鉴一些工具,我们先从简单的入门,首先说到请求,我们就会想到python中,非常好用的requests,然后说到分析解析就会用到bs4,然后我们可以直接用pip命令来实现安装,假如安装的是python3,也可以用pip3

python爬虫获取新浪新闻教学

3、安装好这两个类库之后,然后我们就可以先请求数据,查看下新闻的内容,这个时候我们有可能看到的是乱码

python爬虫获取新浪新闻教学

4、怎么处理乱码呢?我们可以拿浏览器打开网页,右键查看网页源代码,我们可以看到编码格式为utf-8

python爬虫获取新浪新闻教学

python爬虫获取新浪新闻教学

5、然后我们在输出的时候添加编码格式,就可以查看到正确编码的数据了

python爬虫获取新浪新闻教学

6、拿到数据之后,我们需要先分析数据,看我们想要的数据在哪里,我们打开浏览器,右键审查,然后按示例图操作,就可以看到我们新闻所在的标签,假如是windows系统,选择开发中工具里面一样

python爬虫获取新浪新闻教学

python爬虫获取新浪新闻教学

7、我们知道属于哪个标签之后,就是用bs4来解析拿到我们想要的数据了

python爬虫获取新浪新闻教学

8、我们想要拿到新闻的具体标题,时间,地址,就需要我们在对元素进行深入的解析,我们还是按之前的方法,找到标题所在的标签

python爬虫获取新浪新闻教学

9、然后我们编写标题时间地址的python程序,就可以爬取出对应的标题内容,时间和地址

python爬虫获取新浪新闻教学

10、

简单的python爬取新闻就讲到这里啦

 总结:以上就是关于Python爬虫获取新浪新闻内容的步骤,感谢大家的的阅读和对三水点靠木的支持。

Python 相关文章推荐
编写简单的Python程序来判断文本的语种
Apr 07 Python
Python文件操作基本流程代码实例
Dec 11 Python
Python Pandas找到缺失值的位置方法
Apr 12 Python
flask框架视图函数用法示例
Jul 19 Python
python退出命令是什么?详解python退出方法
Dec 10 Python
python 获取图片分辨率的方法
Jan 08 Python
pandas DataFrame索引行列的实现
Jun 04 Python
Python日志无延迟实时写入的示例
Jul 11 Python
详解Django定时任务模块设计与实践
Jul 24 Python
解决tensorflow打印tensor有省略号的问题
Feb 04 Python
浅谈Python中的异常和JSON读写数据的实现
Feb 27 Python
通过Python实现Payload分离免杀过程详解
Jul 13 Python
Python爬虫文件下载图文教程
Dec 23 #Python
python爬虫获取百度首页内容教学
Dec 23 #Python
Python爬虫设置代理IP(图文)
Dec 23 #Python
celery4+django2定时任务的实现代码
Dec 23 #Python
python3使用pandas获取股票数据的方法
Dec 22 #Python
Python实现将通信达.day文件读取为DataFrame
Dec 22 #Python
python3 cvs将数据读取为字典的方法
Dec 22 #Python
You might like
PHP中的switch语句的用法实例详解
2015/10/21 PHP
php监测数据是否成功插入到Mysql数据库的方法
2016/11/25 PHP
PHP中include()与require()的区别说明
2017/02/14 PHP
Laravel框架验证码类用法实例分析
2019/09/11 PHP
thinkphp框架类库扩展操作示例
2019/11/26 PHP
JQuery 插件模板 制作jquery插件的朋友可以参考下
2010/03/17 Javascript
利用JS延迟加载百度分享代码,提高网页速度
2013/07/01 Javascript
JS.GetAllChild(element,deep,condition)使用介绍
2013/09/21 Javascript
初识angular框架后的所思所想
2016/02/19 Javascript
js重写方法的简单实现
2016/07/10 Javascript
JS实现六边形3D拖拽翻转效果的方法
2016/09/11 Javascript
nodejs的HTML分析利器node-jquery用法浅析
2016/11/08 NodeJs
Canvas实现放射线动画效果
2017/02/15 Javascript
Bootstrap标签页(Tab)插件使用方法
2017/03/21 Javascript
js模块加载方式浅析
2017/08/12 Javascript
基于Three.js实现360度全景图片
2018/12/30 Javascript
微信小程序在线客服自动回复功能(基于node)
2019/07/03 Javascript
如何自定义微信小程序tabbar上边框的颜色
2019/07/09 Javascript
Vue项目实现简单的权限控制管理功能
2019/07/17 Javascript
JavaScript 中的六种循环方法
2021/01/06 Javascript
学习python中matplotlib绘图设置坐标轴刻度、文本
2018/02/07 Python
python dataframe 输出结果整行显示的方法
2018/06/14 Python
详解python中Numpy的属性与创建矩阵
2018/09/10 Python
利用Python实现手机短信监控通知的方法
2019/07/22 Python
Python collections中的双向队列deque简单介绍详解
2019/11/04 Python
pytorch中tensor张量数据类型的转化方式
2019/12/31 Python
Python使用uuid库生成唯一标识ID
2020/02/12 Python
Python中的xlrd模块使用原理解析
2020/05/21 Python
Python爬虫自动化爬取b站实时弹幕实例方法
2021/01/26 Python
Python页面加载的等待方式总结
2021/02/28 Python
HTML5无刷新改变当前url的代码
2017/03/15 HTML / CSS
Expedia爱尔兰:酒店、机票、租车及廉价假期
2017/01/02 全球购物
股东协议书范本
2014/04/14 职场文书
机关作风建设工作总结
2014/10/23 职场文书
golang如何去除多余空白字符(含制表符)
2021/04/25 Golang
教你使用Python获取QQ音乐某个歌手的歌单
2022/04/03 Python