python爬虫获取新浪新闻教学


Posted in Python onDecember 23, 2018

一提到python,大家经常会提到爬虫,爬虫近来兴起的原因我觉得主要还是因为大数据的原因,大数据导致了我们的数据不在只存在于自己的服务器,而python语言的简便也成了爬虫工具的首要语言,我们这篇文章来讲下爬虫,爬取新浪新闻

1、

大家知道,爬虫实际上就是模拟浏览器请求,然后把请求到的数据,经过我们的分析,提取出我们想要的内容,这也就是爬虫的实现
大家知道,爬虫实际上就是模拟浏览器请求,然后把请求到的数据,经过我们的分析,提取出我们想要的内容,这也就是爬虫的实现

2、首先,我们要写爬虫,可以借鉴一些工具,我们先从简单的入门,首先说到请求,我们就会想到python中,非常好用的requests,然后说到分析解析就会用到bs4,然后我们可以直接用pip命令来实现安装,假如安装的是python3,也可以用pip3

python爬虫获取新浪新闻教学

3、安装好这两个类库之后,然后我们就可以先请求数据,查看下新闻的内容,这个时候我们有可能看到的是乱码

python爬虫获取新浪新闻教学

4、怎么处理乱码呢?我们可以拿浏览器打开网页,右键查看网页源代码,我们可以看到编码格式为utf-8

python爬虫获取新浪新闻教学

python爬虫获取新浪新闻教学

5、然后我们在输出的时候添加编码格式,就可以查看到正确编码的数据了

python爬虫获取新浪新闻教学

6、拿到数据之后,我们需要先分析数据,看我们想要的数据在哪里,我们打开浏览器,右键审查,然后按示例图操作,就可以看到我们新闻所在的标签,假如是windows系统,选择开发中工具里面一样

python爬虫获取新浪新闻教学

python爬虫获取新浪新闻教学

7、我们知道属于哪个标签之后,就是用bs4来解析拿到我们想要的数据了

python爬虫获取新浪新闻教学

8、我们想要拿到新闻的具体标题,时间,地址,就需要我们在对元素进行深入的解析,我们还是按之前的方法,找到标题所在的标签

python爬虫获取新浪新闻教学

9、然后我们编写标题时间地址的python程序,就可以爬取出对应的标题内容,时间和地址

python爬虫获取新浪新闻教学

10、

简单的python爬取新闻就讲到这里啦

 总结:以上就是关于Python爬虫获取新浪新闻内容的步骤,感谢大家的的阅读和对三水点靠木的支持。

Python 相关文章推荐
python网络编程学习笔记(三):socket网络服务器
Jun 09 Python
如何解决django配置settings时遇到Could not import settings 'conf.local'
Nov 18 Python
Python随机读取文件实现实例
May 25 Python
Python使用django搭建web开发环境
Jun 09 Python
python 创建弹出式菜单的实现代码
Jul 11 Python
Python处理命令行参数模块optpars用法实例分析
May 31 Python
pycharm在调试python时执行其他语句的方法
Nov 29 Python
Pytorch 的损失函数Loss function使用详解
Jan 02 Python
pytorch 实现在一个优化器中设置多个网络参数的例子
Feb 20 Python
python中如何设置代码自动提示
Jul 15 Python
Pytorch之Tensor和Numpy之间的转换的实现方法
Sep 03 Python
Django分页器的用法你都了解吗
May 26 Python
Python爬虫文件下载图文教程
Dec 23 #Python
python爬虫获取百度首页内容教学
Dec 23 #Python
Python爬虫设置代理IP(图文)
Dec 23 #Python
celery4+django2定时任务的实现代码
Dec 23 #Python
python3使用pandas获取股票数据的方法
Dec 22 #Python
Python实现将通信达.day文件读取为DataFrame
Dec 22 #Python
python3 cvs将数据读取为字典的方法
Dec 22 #Python
You might like
PHP实现克鲁斯卡尔算法实例解析
2014/08/22 PHP
PHP使用memcache缓存技术提高响应速度的方法
2014/12/26 PHP
Yii2实现自定义独立验证器的方法
2017/05/05 PHP
PHP+redis实现的悲观锁机制示例
2018/06/12 PHP
PHP聊天室简单实现方法详解
2018/12/08 PHP
PJBlog插件 防刷新的在线播放器
2006/10/25 Javascript
Javascript实例教程(19) 使用HoTMetal(6)
2006/12/23 Javascript
jquery 笔记 事件
2011/11/02 Javascript
THREE.JS入门教程(5)你应当知道的十件事
2013/01/24 Javascript
JavaScript window.location对象
2014/11/14 Javascript
JavaScript设置表单上传时文件个数的方法
2015/08/11 Javascript
js实现索引图片切换效果
2015/11/21 Javascript
AngularJs实现分页功能不带省略号的代码
2016/05/30 Javascript
最实用的jQuery分页插件
2016/10/09 Javascript
bootstrap table小案例
2016/10/21 Javascript
angular2中使用第三方js库的实例
2018/02/26 Javascript
理解 JavaScript EventEmitter
2018/03/29 Javascript
JavaScript实现京东购物放大镜和选项卡效果的方法分析
2018/07/05 Javascript
iview在vue-cli3如何按需加载的方法
2018/10/31 Javascript
JavaScript链式调用实例浅析
2018/12/19 Javascript
javascript验证form表单数据的案例详解
2019/03/25 Javascript
python监控linux内存并写入mongodb(推荐)
2017/09/11 Python
如何基于Python获取图片的物理尺寸
2019/11/25 Python
python 制作网站小说下载器
2021/02/20 Python
CSS3中Transform动画属性用法详解
2016/07/04 HTML / CSS
详解FireFox下Canvas使用图像合成绘制SVG的Bug
2019/07/10 HTML / CSS
如果NULL和0作为空指针常数是等价的,那我到底该用哪一个
2014/09/16 面试题
建筑工程质量通病防治方案
2014/06/08 职场文书
分居协议书范本
2014/11/03 职场文书
检讨书怎么写
2015/01/23 职场文书
绵山导游词
2015/02/05 职场文书
2015年度内部审计工作总结
2015/05/20 职场文书
2015年度酒店客房部工作总结
2015/05/25 职场文书
springboot中rabbitmq实现消息可靠性机制详解
2021/09/25 Java/Android
MySQL学习之基础操作总结
2022/03/19 MySQL
MongoDB修改oplog大小的四种方法
2022/04/11 MongoDB