python爬虫获取新浪新闻教学


Posted in Python onDecember 23, 2018

一提到python,大家经常会提到爬虫,爬虫近来兴起的原因我觉得主要还是因为大数据的原因,大数据导致了我们的数据不在只存在于自己的服务器,而python语言的简便也成了爬虫工具的首要语言,我们这篇文章来讲下爬虫,爬取新浪新闻

1、

大家知道,爬虫实际上就是模拟浏览器请求,然后把请求到的数据,经过我们的分析,提取出我们想要的内容,这也就是爬虫的实现
大家知道,爬虫实际上就是模拟浏览器请求,然后把请求到的数据,经过我们的分析,提取出我们想要的内容,这也就是爬虫的实现

2、首先,我们要写爬虫,可以借鉴一些工具,我们先从简单的入门,首先说到请求,我们就会想到python中,非常好用的requests,然后说到分析解析就会用到bs4,然后我们可以直接用pip命令来实现安装,假如安装的是python3,也可以用pip3

python爬虫获取新浪新闻教学

3、安装好这两个类库之后,然后我们就可以先请求数据,查看下新闻的内容,这个时候我们有可能看到的是乱码

python爬虫获取新浪新闻教学

4、怎么处理乱码呢?我们可以拿浏览器打开网页,右键查看网页源代码,我们可以看到编码格式为utf-8

python爬虫获取新浪新闻教学

python爬虫获取新浪新闻教学

5、然后我们在输出的时候添加编码格式,就可以查看到正确编码的数据了

python爬虫获取新浪新闻教学

6、拿到数据之后,我们需要先分析数据,看我们想要的数据在哪里,我们打开浏览器,右键审查,然后按示例图操作,就可以看到我们新闻所在的标签,假如是windows系统,选择开发中工具里面一样

python爬虫获取新浪新闻教学

python爬虫获取新浪新闻教学

7、我们知道属于哪个标签之后,就是用bs4来解析拿到我们想要的数据了

python爬虫获取新浪新闻教学

8、我们想要拿到新闻的具体标题,时间,地址,就需要我们在对元素进行深入的解析,我们还是按之前的方法,找到标题所在的标签

python爬虫获取新浪新闻教学

9、然后我们编写标题时间地址的python程序,就可以爬取出对应的标题内容,时间和地址

python爬虫获取新浪新闻教学

10、

简单的python爬取新闻就讲到这里啦

 总结:以上就是关于Python爬虫获取新浪新闻内容的步骤,感谢大家的的阅读和对三水点靠木的支持。

Python 相关文章推荐
Python yield 小结和实例
Apr 25 Python
python中ConfigParse模块的用法
Sep 29 Python
python+pyqt实现12306图片验证效果
Oct 25 Python
Python Json序列化与反序列化的示例
Jan 31 Python
对Python subprocess.Popen子进程管道阻塞详解
Oct 29 Python
python微元法计算函数曲线长度的方法
Nov 08 Python
Python 加密与解密小结
Dec 06 Python
python控制nao机器人身体动作实例详解
Apr 29 Python
python使用正则来处理各种匹配问题
Dec 22 Python
python爬取王者荣耀全皮肤的简单实现代码
Jan 31 Python
全网首秀之Pycharm十大实用技巧(推荐)
Apr 27 Python
Pytorch 使用 nii数据做输入数据的操作
May 26 Python
Python爬虫文件下载图文教程
Dec 23 #Python
python爬虫获取百度首页内容教学
Dec 23 #Python
Python爬虫设置代理IP(图文)
Dec 23 #Python
celery4+django2定时任务的实现代码
Dec 23 #Python
python3使用pandas获取股票数据的方法
Dec 22 #Python
Python实现将通信达.day文件读取为DataFrame
Dec 22 #Python
python3 cvs将数据读取为字典的方法
Dec 22 #Python
You might like
php中通过curl smtp发送邮件
2012/06/05 PHP
Laravel 4 初级教程之视图、命名空间、路由
2014/10/30 PHP
windows server 2008/2012安装php iis7 mysql环境搭建教程
2016/06/30 PHP
js实现的常用的左侧导航效果
2013/10/17 Javascript
Query中click(),bind(),live(),delegate()的区别
2013/11/19 Javascript
JavaScript使用Max函数返回两个数字中较大数的方法
2015/04/06 Javascript
js实现的tab标签切换效果代码分享
2015/08/25 Javascript
基于javascript制作微博发布栏效果
2016/04/04 Javascript
浅谈bootstrap源码分析之scrollspy(滚动侦听)
2016/06/06 Javascript
使用React实现轮播效果组件示例代码
2016/09/05 Javascript
jQuery插件ajaxFileUpload异步上传文件
2016/10/19 Javascript
vue2.0+webpack环境的构造过程
2016/11/08 Javascript
Vue.js教程之axios与网络传输的学习实践
2017/04/29 Javascript
详解Node.js access_token的获取、存储及更新
2017/06/20 Javascript
JavaScript生成指定范围随机数和随机序列的方法
2018/05/05 Javascript
详解JSON Web Token 入门教程
2018/07/30 Javascript
微信小程序学习笔记之目录结构、基本配置图文详解
2019/03/28 Javascript
浅谈webpack 四个核心概念之Entry
2019/06/12 Javascript
js实现时分秒倒计时
2019/12/03 Javascript
react PropTypes校验传递的值操作示例
2020/04/28 Javascript
[31:00]2014 DOTA2华西杯精英邀请赛5 24 NewBee VS iG
2014/05/25 DOTA
[47:18]完美世界DOTA2联赛循环赛 IO vs FTD BO2第一场 11.05
2020/11/06 DOTA
python自动化测试之setUp与tearDown实例
2014/09/28 Python
Python 变量类型详解
2018/10/10 Python
如何基于windows实现python定时爬虫
2020/05/01 Python
Python requests模块安装及使用教程图解
2020/06/30 Python
详解HTML5 canvas绘图基本使用方法
2018/01/29 HTML / CSS
如何用Java判断一个文件或目录是否存在
2012/11/19 面试题
人力资源管理专业毕业生自我评价
2013/09/21 职场文书
给排水专业应届生求职信
2013/10/12 职场文书
公司口号大全
2014/06/11 职场文书
党员批评与自我批评发言
2014/10/02 职场文书
2014年转正工作总结
2014/11/08 职场文书
高三数学教学反思
2016/02/18 职场文书
python中%格式表达式实例用法
2021/06/18 Python
mysql自增长id用完了该怎么办
2022/02/12 MySQL