python爬虫获取新浪新闻教学


Posted in Python onDecember 23, 2018

一提到python,大家经常会提到爬虫,爬虫近来兴起的原因我觉得主要还是因为大数据的原因,大数据导致了我们的数据不在只存在于自己的服务器,而python语言的简便也成了爬虫工具的首要语言,我们这篇文章来讲下爬虫,爬取新浪新闻

1、

大家知道,爬虫实际上就是模拟浏览器请求,然后把请求到的数据,经过我们的分析,提取出我们想要的内容,这也就是爬虫的实现
大家知道,爬虫实际上就是模拟浏览器请求,然后把请求到的数据,经过我们的分析,提取出我们想要的内容,这也就是爬虫的实现

2、首先,我们要写爬虫,可以借鉴一些工具,我们先从简单的入门,首先说到请求,我们就会想到python中,非常好用的requests,然后说到分析解析就会用到bs4,然后我们可以直接用pip命令来实现安装,假如安装的是python3,也可以用pip3

python爬虫获取新浪新闻教学

3、安装好这两个类库之后,然后我们就可以先请求数据,查看下新闻的内容,这个时候我们有可能看到的是乱码

python爬虫获取新浪新闻教学

4、怎么处理乱码呢?我们可以拿浏览器打开网页,右键查看网页源代码,我们可以看到编码格式为utf-8

python爬虫获取新浪新闻教学

python爬虫获取新浪新闻教学

5、然后我们在输出的时候添加编码格式,就可以查看到正确编码的数据了

python爬虫获取新浪新闻教学

6、拿到数据之后,我们需要先分析数据,看我们想要的数据在哪里,我们打开浏览器,右键审查,然后按示例图操作,就可以看到我们新闻所在的标签,假如是windows系统,选择开发中工具里面一样

python爬虫获取新浪新闻教学

python爬虫获取新浪新闻教学

7、我们知道属于哪个标签之后,就是用bs4来解析拿到我们想要的数据了

python爬虫获取新浪新闻教学

8、我们想要拿到新闻的具体标题,时间,地址,就需要我们在对元素进行深入的解析,我们还是按之前的方法,找到标题所在的标签

python爬虫获取新浪新闻教学

9、然后我们编写标题时间地址的python程序,就可以爬取出对应的标题内容,时间和地址

python爬虫获取新浪新闻教学

10、

简单的python爬取新闻就讲到这里啦

 总结:以上就是关于Python爬虫获取新浪新闻内容的步骤,感谢大家的的阅读和对三水点靠木的支持。

Python 相关文章推荐
python连接mysql并提交mysql事务示例
Mar 05 Python
Python使用稀疏矩阵节省内存实例
Jun 27 Python
在Django的URLconf中使用多个视图前缀的方法
Jul 18 Python
python利用paramiko连接远程服务器执行命令的方法
Oct 16 Python
Python开发的十个小贴士和技巧及长常犯错误
Sep 27 Python
详解Django+uwsgi+Nginx上线最佳实战
Mar 14 Python
python中while和for的区别总结
Jun 28 Python
Python 实现将数组/矩阵转换成Image类
Jan 09 Python
Python编程快速上手——疯狂填词程序实现方法分析
Feb 29 Python
Prometheus开发中间件Exporter过程详解
Nov 30 Python
python单例模式的应用场景实例讲解
Feb 24 Python
Python基础之教你怎么在M1系统上使用pandas
May 08 Python
Python爬虫文件下载图文教程
Dec 23 #Python
python爬虫获取百度首页内容教学
Dec 23 #Python
Python爬虫设置代理IP(图文)
Dec 23 #Python
celery4+django2定时任务的实现代码
Dec 23 #Python
python3使用pandas获取股票数据的方法
Dec 22 #Python
Python实现将通信达.day文件读取为DataFrame
Dec 22 #Python
python3 cvs将数据读取为字典的方法
Dec 22 #Python
You might like
详细介绍PHP应用提速面面观
2006/10/09 PHP
PHP批量生成图片缩略图的方法
2015/06/18 PHP
Thinkphp极验滑动验证码实现步骤解析
2020/11/24 PHP
使用jquery解析XML示例代码
2014/09/05 Javascript
使用Sticker.js实现贴纸效果
2015/01/28 Javascript
javascript中使用new与不使用实例化对象的区别
2015/06/22 Javascript
javascript实现简单的进度条
2015/07/02 Javascript
Nodejs爬虫进阶教程之异步并发控制
2016/02/15 NodeJs
jquery插件jquery.dragscale.js实现拖拽改变元素大小的方法(附demo源码下载)
2016/02/25 Javascript
AngularJS基础 ng-show 指令简单示例
2016/08/03 Javascript
Node.js 数据加密传输浅析
2016/11/16 Javascript
微信小程序开发animation心跳动画效果
2017/08/16 Javascript
详解node nvm进行node多版本管理
2017/10/21 Javascript
解决iview打包时UglifyJs报错的问题
2018/03/07 Javascript
React如何避免重渲染
2018/04/10 Javascript
Node.js 多线程完全指南总结
2019/03/27 Javascript
Vue.directive 实现元素scroll逻辑复用
2019/11/29 Javascript
Vue执行方法,方法获取data值,设置data值,方法传值操作
2020/08/05 Javascript
python改变日志(logging)存放位置的示例
2014/03/27 Python
Python环境搭建之OpenCV的步骤方法
2017/10/20 Python
python3.6连接MySQL和表的创建与删除实例代码
2017/12/28 Python
python 监听salt job状态,并任务数据推送到redis中的方法
2019/01/14 Python
Python基本socket通信控制操作示例
2019/01/30 Python
python for 循环获取index索引的方法
2019/02/01 Python
python中selenium操作下拉滚动条的几种方法汇总
2019/07/14 Python
Html5实现二维码扫描并解析
2016/01/20 HTML / CSS
处理textarea中的换行和空格
2019/12/12 HTML / CSS
成功的酒店创业计划书
2013/12/27 职场文书
2015年领导干部廉洁自律工作总结
2015/05/26 职场文书
公司客户答谢酒会祝酒词
2015/08/11 职场文书
暑假生活随笔
2015/08/15 职场文书
导游词之淮安明祖陵
2019/11/25 职场文书
InterProcessMutex实现zookeeper分布式锁原理
2022/03/21 Java/Android
Z-Order加速Hudi大规模数据集方案分析
2022/03/31 Servers
Android在Sqlite3中的应用及多线程使用数据库的建议
2022/04/24 Java/Android
详解flex:1什么意思
2022/07/23 HTML / CSS