python爬虫获取新浪新闻教学


Posted in Python onDecember 23, 2018

一提到python,大家经常会提到爬虫,爬虫近来兴起的原因我觉得主要还是因为大数据的原因,大数据导致了我们的数据不在只存在于自己的服务器,而python语言的简便也成了爬虫工具的首要语言,我们这篇文章来讲下爬虫,爬取新浪新闻

1、

大家知道,爬虫实际上就是模拟浏览器请求,然后把请求到的数据,经过我们的分析,提取出我们想要的内容,这也就是爬虫的实现
大家知道,爬虫实际上就是模拟浏览器请求,然后把请求到的数据,经过我们的分析,提取出我们想要的内容,这也就是爬虫的实现

2、首先,我们要写爬虫,可以借鉴一些工具,我们先从简单的入门,首先说到请求,我们就会想到python中,非常好用的requests,然后说到分析解析就会用到bs4,然后我们可以直接用pip命令来实现安装,假如安装的是python3,也可以用pip3

python爬虫获取新浪新闻教学

3、安装好这两个类库之后,然后我们就可以先请求数据,查看下新闻的内容,这个时候我们有可能看到的是乱码

python爬虫获取新浪新闻教学

4、怎么处理乱码呢?我们可以拿浏览器打开网页,右键查看网页源代码,我们可以看到编码格式为utf-8

python爬虫获取新浪新闻教学

python爬虫获取新浪新闻教学

5、然后我们在输出的时候添加编码格式,就可以查看到正确编码的数据了

python爬虫获取新浪新闻教学

6、拿到数据之后,我们需要先分析数据,看我们想要的数据在哪里,我们打开浏览器,右键审查,然后按示例图操作,就可以看到我们新闻所在的标签,假如是windows系统,选择开发中工具里面一样

python爬虫获取新浪新闻教学

python爬虫获取新浪新闻教学

7、我们知道属于哪个标签之后,就是用bs4来解析拿到我们想要的数据了

python爬虫获取新浪新闻教学

8、我们想要拿到新闻的具体标题,时间,地址,就需要我们在对元素进行深入的解析,我们还是按之前的方法,找到标题所在的标签

python爬虫获取新浪新闻教学

9、然后我们编写标题时间地址的python程序,就可以爬取出对应的标题内容,时间和地址

python爬虫获取新浪新闻教学

10、

简单的python爬取新闻就讲到这里啦

 总结:以上就是关于Python爬虫获取新浪新闻内容的步骤,感谢大家的的阅读和对三水点靠木的支持。

Python 相关文章推荐
简洁的十分钟Python入门教程
Apr 03 Python
python中base64加密解密方法实例分析
May 16 Python
Python内建数据结构详解
Feb 03 Python
Django中Forms的使用代码解析
Feb 10 Python
Python向Excel中插入图片的简单实现方法
Apr 24 Python
Python中Numpy包的安装与使用方法简明教程
Jul 03 Python
Python实现账号密码输错三次即锁定功能简单示例
Mar 29 Python
python 计算两个列表的相关系数的实现
Aug 29 Python
python 使用事件对象asyncio.Event来同步协程的操作
May 04 Python
Python datetime模块的使用示例
Feb 02 Python
python编写扎金花小程序的实例代码
Feb 23 Python
python绘制云雨图raincloud plot
Aug 05 Python
Python爬虫文件下载图文教程
Dec 23 #Python
python爬虫获取百度首页内容教学
Dec 23 #Python
Python爬虫设置代理IP(图文)
Dec 23 #Python
celery4+django2定时任务的实现代码
Dec 23 #Python
python3使用pandas获取股票数据的方法
Dec 22 #Python
Python实现将通信达.day文件读取为DataFrame
Dec 22 #Python
python3 cvs将数据读取为字典的方法
Dec 22 #Python
You might like
总集篇&特番节目先行播出!《SAO Alicization War of Underworld》第2季度TV动画4月25日放送!
2020/03/06 日漫
php中模拟POST传递数据的两种方法分享
2011/09/16 PHP
thinkPHP5框架中widget的功能与用法详解
2018/06/11 PHP
js change,propertychange,input事件小议
2011/12/20 Javascript
仿新浪微博返回顶部的jquery实现代码
2012/10/01 Javascript
JQuery插件开发示例代码
2013/11/06 Javascript
jquery序列化方法实例分析
2015/06/10 Javascript
Javascript获取图片原始宽度和高度的方法详解
2016/09/20 Javascript
vue、react等单页面项目应该这样子部署到服务器
2018/01/03 Javascript
小程序实现多选框功能
2018/10/30 Javascript
JS实现简单打字测试
2020/06/24 Javascript
[04:38]完美世界携手游戏风云打造 卡尔工作室饰品系统篇
2013/04/25 DOTA
关于Python中异常(Exception)的汇总
2017/01/18 Python
python处理大日志文件
2019/07/23 Python
pycharm 安装JPype的教程
2019/08/08 Python
利用Python实现kNN算法的代码
2019/08/16 Python
python 用户交互输入input的4种用法详解
2019/09/24 Python
浅谈Pytorch中的自动求导函数backward()所需参数的含义
2020/02/29 Python
Django模板获取field的verbose_name实例
2020/05/19 Python
浅谈Python中的字符串
2020/06/10 Python
域名注册、建站工具、网页主机、SSL证书:Dynadot
2017/01/06 全球购物
酒店个人培训自我鉴定
2013/12/11 职场文书
审计工作个人的自我评价
2013/12/25 职场文书
小学英语教学反思案例
2014/02/04 职场文书
小学开学典礼主持词
2014/03/19 职场文书
幼儿园小班家长寄语
2014/04/02 职场文书
中文专业求职信
2014/06/20 职场文书
酒店管理失职检讨书
2014/09/16 职场文书
2014最新版群众路线四风整改措施
2014/09/24 职场文书
政风行风整改方案
2014/10/25 职场文书
合作合同协议书范本
2015/01/27 职场文书
2015年度质量工作总结报告
2015/04/27 职场文书
我的暑假生活作文(五年级)范文
2019/08/07 职场文书
Ajax是什么?Ajax高级用法之Axios技术
2021/04/21 Javascript
Nginx实现高可用集群构建(Keepalived+Haproxy+Nginx)
2021/05/27 Servers
java版 简单三子棋游戏
2022/05/04 Java/Android