python爬虫获取新浪新闻教学


Posted in Python onDecember 23, 2018

一提到python,大家经常会提到爬虫,爬虫近来兴起的原因我觉得主要还是因为大数据的原因,大数据导致了我们的数据不在只存在于自己的服务器,而python语言的简便也成了爬虫工具的首要语言,我们这篇文章来讲下爬虫,爬取新浪新闻

1、

大家知道,爬虫实际上就是模拟浏览器请求,然后把请求到的数据,经过我们的分析,提取出我们想要的内容,这也就是爬虫的实现
大家知道,爬虫实际上就是模拟浏览器请求,然后把请求到的数据,经过我们的分析,提取出我们想要的内容,这也就是爬虫的实现

2、首先,我们要写爬虫,可以借鉴一些工具,我们先从简单的入门,首先说到请求,我们就会想到python中,非常好用的requests,然后说到分析解析就会用到bs4,然后我们可以直接用pip命令来实现安装,假如安装的是python3,也可以用pip3

python爬虫获取新浪新闻教学

3、安装好这两个类库之后,然后我们就可以先请求数据,查看下新闻的内容,这个时候我们有可能看到的是乱码

python爬虫获取新浪新闻教学

4、怎么处理乱码呢?我们可以拿浏览器打开网页,右键查看网页源代码,我们可以看到编码格式为utf-8

python爬虫获取新浪新闻教学

python爬虫获取新浪新闻教学

5、然后我们在输出的时候添加编码格式,就可以查看到正确编码的数据了

python爬虫获取新浪新闻教学

6、拿到数据之后,我们需要先分析数据,看我们想要的数据在哪里,我们打开浏览器,右键审查,然后按示例图操作,就可以看到我们新闻所在的标签,假如是windows系统,选择开发中工具里面一样

python爬虫获取新浪新闻教学

python爬虫获取新浪新闻教学

7、我们知道属于哪个标签之后,就是用bs4来解析拿到我们想要的数据了

python爬虫获取新浪新闻教学

8、我们想要拿到新闻的具体标题,时间,地址,就需要我们在对元素进行深入的解析,我们还是按之前的方法,找到标题所在的标签

python爬虫获取新浪新闻教学

9、然后我们编写标题时间地址的python程序,就可以爬取出对应的标题内容,时间和地址

python爬虫获取新浪新闻教学

10、

简单的python爬取新闻就讲到这里啦

 总结:以上就是关于Python爬虫获取新浪新闻内容的步骤,感谢大家的的阅读和对三水点靠木的支持。

Python 相关文章推荐
python迭代器实例简析
Sep 25 Python
Python 检查数组元素是否存在类似PHP isset()方法
Oct 14 Python
Python如何实现文本转语音
Aug 08 Python
Python根据已知邻接矩阵绘制无向图操作示例
Jun 23 Python
Python安装pycurl失败的解决方法
Oct 15 Python
python取数作为临时极大值(极小值)的方法
Oct 15 Python
Python 循环终止语句的三种方法小结
Jun 24 Python
python在不同条件下的输入与输出
Feb 13 Python
Python3标准库之threading进程中管理并发操作方法
Mar 30 Python
举例讲解Python装饰器
Dec 24 Python
Python 中面向接口编程
May 20 Python
python playwrigh框架入门安装使用
Jul 23 Python
Python爬虫文件下载图文教程
Dec 23 #Python
python爬虫获取百度首页内容教学
Dec 23 #Python
Python爬虫设置代理IP(图文)
Dec 23 #Python
celery4+django2定时任务的实现代码
Dec 23 #Python
python3使用pandas获取股票数据的方法
Dec 22 #Python
Python实现将通信达.day文件读取为DataFrame
Dec 22 #Python
python3 cvs将数据读取为字典的方法
Dec 22 #Python
You might like
php防止sql注入代码实例
2013/12/18 PHP
ThinkPHP中的create方法与自动令牌验证实例教程
2014/08/22 PHP
在SAE上搭建最新wordpress的方法
2014/12/21 PHP
CL vs ForZe BO5 第三场 2.13
2021/03/10 DOTA
发布一个高效的JavaScript分析、压缩工具 JavaScript Analyser
2007/11/30 Javascript
JavaScript 调试器简介
2009/02/21 Javascript
js函数中onmousedown和onclick的区别和联系探讨
2013/05/19 Javascript
jquery列表拖动排列(由项目提取相当好用)
2014/06/17 Javascript
jquery显示隐藏input对象
2014/07/21 Javascript
jQuery实现跟随鼠标运动图层效果的方法
2015/02/02 Javascript
RequireJS多页面应用实例分析
2016/06/29 Javascript
AngularJS 中的Promise --- $q服务详解
2016/09/14 Javascript
微信小程序通过api接口将json数据展现到小程序示例
2017/01/20 Javascript
利用jQuery解析获取JSON数据
2017/04/08 jQuery
详解Angular Reactive Form 表单验证
2017/07/06 Javascript
JS使用遮罩实现点击某区域以外时弹窗的弹出与关闭功能示例
2018/07/31 Javascript
JavaScript简单实现动态改变HTML内容的方法示例
2018/12/25 Javascript
vue增加强缓存和版本号的实现方法
2019/05/01 Javascript
Smartour 让网页导览变得更简单(推荐)
2019/07/19 Javascript
JS实现进度条动态加载特效
2020/03/25 Javascript
Python3使用requests包抓取并保存网页源码的方法
2016/03/15 Python
Python语言的变量认识及操作方法
2018/02/11 Python
jupyter notebook引用from pyecharts.charts import Bar运行报错
2020/04/23 Python
Django2.1.3 中间件使用详解
2018/11/26 Python
纯CSS改变webkit内核浏览器的滚动条样式
2014/04/17 HTML / CSS
社会实践自我鉴定
2013/11/07 职场文书
《两个铁球同时着地》教学反思
2014/02/13 职场文书
工程专业应届生求职信
2014/02/19 职场文书
人事专员的岗位职责
2014/03/01 职场文书
读书月活动方案
2014/05/22 职场文书
公司员工活动策划方案
2014/08/20 职场文书
警察正风肃纪剖析材料
2014/10/16 职场文书
2015年信贷员工作总结
2015/04/28 职场文书
公诉意见书范文
2015/06/05 职场文书
2019年浪漫婚礼证婚词
2019/06/27 职场文书
想创业成功,需要掌握这些要点
2019/12/06 职场文书