python爬虫获取新浪新闻教学


Posted in Python onDecember 23, 2018

一提到python,大家经常会提到爬虫,爬虫近来兴起的原因我觉得主要还是因为大数据的原因,大数据导致了我们的数据不在只存在于自己的服务器,而python语言的简便也成了爬虫工具的首要语言,我们这篇文章来讲下爬虫,爬取新浪新闻

1、

大家知道,爬虫实际上就是模拟浏览器请求,然后把请求到的数据,经过我们的分析,提取出我们想要的内容,这也就是爬虫的实现
大家知道,爬虫实际上就是模拟浏览器请求,然后把请求到的数据,经过我们的分析,提取出我们想要的内容,这也就是爬虫的实现

2、首先,我们要写爬虫,可以借鉴一些工具,我们先从简单的入门,首先说到请求,我们就会想到python中,非常好用的requests,然后说到分析解析就会用到bs4,然后我们可以直接用pip命令来实现安装,假如安装的是python3,也可以用pip3

python爬虫获取新浪新闻教学

3、安装好这两个类库之后,然后我们就可以先请求数据,查看下新闻的内容,这个时候我们有可能看到的是乱码

python爬虫获取新浪新闻教学

4、怎么处理乱码呢?我们可以拿浏览器打开网页,右键查看网页源代码,我们可以看到编码格式为utf-8

python爬虫获取新浪新闻教学

python爬虫获取新浪新闻教学

5、然后我们在输出的时候添加编码格式,就可以查看到正确编码的数据了

python爬虫获取新浪新闻教学

6、拿到数据之后,我们需要先分析数据,看我们想要的数据在哪里,我们打开浏览器,右键审查,然后按示例图操作,就可以看到我们新闻所在的标签,假如是windows系统,选择开发中工具里面一样

python爬虫获取新浪新闻教学

python爬虫获取新浪新闻教学

7、我们知道属于哪个标签之后,就是用bs4来解析拿到我们想要的数据了

python爬虫获取新浪新闻教学

8、我们想要拿到新闻的具体标题,时间,地址,就需要我们在对元素进行深入的解析,我们还是按之前的方法,找到标题所在的标签

python爬虫获取新浪新闻教学

9、然后我们编写标题时间地址的python程序,就可以爬取出对应的标题内容,时间和地址

python爬虫获取新浪新闻教学

10、

简单的python爬取新闻就讲到这里啦

 总结:以上就是关于Python爬虫获取新浪新闻内容的步骤,感谢大家的的阅读和对三水点靠木的支持。

Python 相关文章推荐
python实现udp数据报传输的方法
Sep 26 Python
详解python中的json的基本使用方法
Dec 21 Python
Python 2与Python 3版本和编码的对比
Feb 14 Python
python版简单工厂模式
Oct 16 Python
详解Python用户登录接口的方法
Apr 17 Python
搭建python django虚拟环境完整步骤详解
Jul 08 Python
python pillow模块使用方法详解
Aug 30 Python
Django后端发送小程序微信模板消息示例(服务通知)
Dec 17 Python
Django 博客实现简单的全文搜索的示例代码
Feb 17 Python
python基本算法之实现归并排序(Merge sort)
Sep 01 Python
python获取淘宝服务器时间的代码示例
Apr 22 Python
Python机器学习应用之工业蒸汽数据分析篇详解
Jan 18 Python
Python爬虫文件下载图文教程
Dec 23 #Python
python爬虫获取百度首页内容教学
Dec 23 #Python
Python爬虫设置代理IP(图文)
Dec 23 #Python
celery4+django2定时任务的实现代码
Dec 23 #Python
python3使用pandas获取股票数据的方法
Dec 22 #Python
Python实现将通信达.day文件读取为DataFrame
Dec 22 #Python
python3 cvs将数据读取为字典的方法
Dec 22 #Python
You might like
提升PHP执行速度全攻略
2006/10/09 PHP
PHP超级全局变量数组小结
2012/10/04 PHP
Laravel中基于Artisan View扩展包创建及删除应用视图文件的方法
2016/10/08 PHP
JavaScript中获取元素索引的函数
2010/09/10 Javascript
jquery easyui combox一些实用的小方法
2013/12/25 Javascript
JS批量修改PS中图层名称的方法
2014/01/26 Javascript
JavaScript识别网页关键字并进行描红的方法
2015/11/09 Javascript
JS Ajax请求如何防止重复提交
2016/06/13 Javascript
微信小程序 wxapp地图 map详解
2016/10/31 Javascript
JavaScript Date 知识浅析
2017/01/29 Javascript
Javascript中的prototype与继承
2017/02/06 Javascript
Angular在一个页面中使用两个ng-app的方法(二)
2017/02/20 Javascript
微信小程序 开发MAP(地图)实例详解
2017/06/27 Javascript
js实现以最简单的方式将数组元素添加到对象中的方法
2017/12/20 Javascript
JS匿名函数和匿名自执行函数概念与用法分析
2018/03/16 Javascript
js神秘的电报密码 哈弗曼编码实现
2019/09/10 Javascript
微信公众号H5之微信分享常见错误和问题(小结)
2019/11/14 Javascript
vue实现短信验证码登录功能(流程详解)
2019/12/10 Javascript
[49:08]OpTic vs Serenity 2018国际邀请赛小组赛BO2 第一场 8.18
2018/08/19 DOTA
python批量下载图片的三种方法
2013/04/22 Python
Python正则表达式使用范例分享
2016/12/04 Python
详解python调度框架APScheduler使用
2017/03/28 Python
python 在指定范围内随机生成不重复的n个数实例
2019/01/28 Python
python函数与方法的区别总结
2019/06/23 Python
对Python获取屏幕截图的4种方法详解
2019/08/27 Python
PyTorch中torch.tensor与torch.Tensor的区别详解
2020/05/18 Python
CSS3之2D与3D变换的实现方法
2019/01/28 HTML / CSS
刘胡兰的英雄事迹材料
2014/02/11 职场文书
大学四年个人自我小结
2014/03/05 职场文书
俞敏洪励志演讲稿
2014/04/29 职场文书
小学假期安全广播稿
2014/09/28 职场文书
个人查摆问题及整改措施
2014/10/16 职场文书
个人年底工作总结
2015/03/10 职场文书
小学生暑假生活总结
2015/07/13 职场文书
2016教师给学生的毕业寄语
2015/12/04 职场文书
2019年XX公司的晨会制度及流程!
2019/07/23 职场文书