python爬虫获取新浪新闻教学


Posted in Python onDecember 23, 2018

一提到python,大家经常会提到爬虫,爬虫近来兴起的原因我觉得主要还是因为大数据的原因,大数据导致了我们的数据不在只存在于自己的服务器,而python语言的简便也成了爬虫工具的首要语言,我们这篇文章来讲下爬虫,爬取新浪新闻

1、

大家知道,爬虫实际上就是模拟浏览器请求,然后把请求到的数据,经过我们的分析,提取出我们想要的内容,这也就是爬虫的实现
大家知道,爬虫实际上就是模拟浏览器请求,然后把请求到的数据,经过我们的分析,提取出我们想要的内容,这也就是爬虫的实现

2、首先,我们要写爬虫,可以借鉴一些工具,我们先从简单的入门,首先说到请求,我们就会想到python中,非常好用的requests,然后说到分析解析就会用到bs4,然后我们可以直接用pip命令来实现安装,假如安装的是python3,也可以用pip3

python爬虫获取新浪新闻教学

3、安装好这两个类库之后,然后我们就可以先请求数据,查看下新闻的内容,这个时候我们有可能看到的是乱码

python爬虫获取新浪新闻教学

4、怎么处理乱码呢?我们可以拿浏览器打开网页,右键查看网页源代码,我们可以看到编码格式为utf-8

python爬虫获取新浪新闻教学

python爬虫获取新浪新闻教学

5、然后我们在输出的时候添加编码格式,就可以查看到正确编码的数据了

python爬虫获取新浪新闻教学

6、拿到数据之后,我们需要先分析数据,看我们想要的数据在哪里,我们打开浏览器,右键审查,然后按示例图操作,就可以看到我们新闻所在的标签,假如是windows系统,选择开发中工具里面一样

python爬虫获取新浪新闻教学

python爬虫获取新浪新闻教学

7、我们知道属于哪个标签之后,就是用bs4来解析拿到我们想要的数据了

python爬虫获取新浪新闻教学

8、我们想要拿到新闻的具体标题,时间,地址,就需要我们在对元素进行深入的解析,我们还是按之前的方法,找到标题所在的标签

python爬虫获取新浪新闻教学

9、然后我们编写标题时间地址的python程序,就可以爬取出对应的标题内容,时间和地址

python爬虫获取新浪新闻教学

10、

简单的python爬取新闻就讲到这里啦

 总结:以上就是关于Python爬虫获取新浪新闻内容的步骤,感谢大家的的阅读和对三水点靠木的支持。

Python 相关文章推荐
一个简单的python程序实例(通讯录)
Nov 29 Python
举例介绍Python中的25个隐藏特性
Mar 30 Python
详解Python中time()方法的使用的教程
May 22 Python
web.py 十分钟创建简易博客实现代码
Apr 22 Python
在 Python 应用中使用 MongoDB的方法
Jan 05 Python
Tensorflow实现卷积神经网络用于人脸关键点识别
Mar 05 Python
Python中对数组集进行按行打乱shuffle的方法
Nov 08 Python
python和c语言的主要区别总结
Jul 07 Python
python3 map函数和filter函数详解
Aug 26 Python
django-rest-swagger对API接口注释的方法
Aug 29 Python
浅谈keras的深度模型训练过程及结果记录方式
Jan 24 Python
Python3.7安装PyQt5 运行配置Pycharm的详细教程
Oct 15 Python
Python爬虫文件下载图文教程
Dec 23 #Python
python爬虫获取百度首页内容教学
Dec 23 #Python
Python爬虫设置代理IP(图文)
Dec 23 #Python
celery4+django2定时任务的实现代码
Dec 23 #Python
python3使用pandas获取股票数据的方法
Dec 22 #Python
Python实现将通信达.day文件读取为DataFrame
Dec 22 #Python
python3 cvs将数据读取为字典的方法
Dec 22 #Python
You might like
php文件上传表单摘自drupal的代码
2011/02/15 PHP
使用php shell命令合并图片的代码
2011/06/23 PHP
php实现XML和数组的相互转化功能示例
2017/02/08 PHP
PHP学习记录之数组函数
2018/06/01 PHP
tp5框架使用cookie加密算法实现登录功能示例
2020/02/10 PHP
用js自动判断浏览器分辨率的代码
2007/01/28 Javascript
JavaScript 创建对象
2009/07/17 Javascript
分享精心挑选的23款美轮美奂的jQuery 图片特效插件
2012/08/14 Javascript
使用js判断数组中是否包含某一元素(类似于php中的in_array())
2013/12/12 Javascript
jquery.mousewheel实现整屏翻屏效果
2015/08/30 Javascript
轻松学习jQuery插件EasyUI EasyUI实现拖放商品放置购物车
2015/11/30 Javascript
jquery插件之文字间歇自动向上滚动效果代码
2016/02/25 Javascript
js实现的简单图片浮动效果完整实例
2016/05/10 Javascript
js实现按钮控制带有停顿效果的图片滚动
2016/08/30 Javascript
带你快速理解javascript中的事件模型
2017/08/14 Javascript
JS高阶函数原理与用法实例分析
2019/01/15 Javascript
vue组件之间通信方式实例总结【8种方式】
2019/02/22 Javascript
layui关闭层级、简单监听的实例
2019/09/06 Javascript
Python中Collection的使用小技巧
2014/08/18 Python
在Python3中使用asyncio库进行快速数据抓取的教程
2015/04/02 Python
python实现发送邮件及附件功能
2021/03/02 Python
详解python读取和输出到txt
2019/03/29 Python
Python 3 实现定义跨模块的全局变量和使用教程
2019/07/07 Python
pytorch多进程加速及代码优化方法
2019/08/19 Python
python快速排序的实现及运行时间比较
2019/11/22 Python
在python里创建一个任务(Task)实例
2020/04/25 Python
python中pow函数用法及功能说明
2020/12/04 Python
使用CSS3制作一个简单的进度条(demo)
2017/05/23 HTML / CSS
生物制药毕业生自荐信
2013/10/16 职场文书
监理资料员岗位职责
2014/01/03 职场文书
教师党性分析材料
2014/02/04 职场文书
2014年妇联工作总结
2014/11/21 职场文书
2014年小学德育工作总结
2014/12/05 职场文书
证婚人致辞精选
2015/07/28 职场文书
浅谈JavaScript作用域
2021/12/06 Javascript
MySQL性能指标TPS+QPS+IOPS压测
2022/08/05 MySQL