python爬虫获取新浪新闻教学


Posted in Python onDecember 23, 2018

一提到python,大家经常会提到爬虫,爬虫近来兴起的原因我觉得主要还是因为大数据的原因,大数据导致了我们的数据不在只存在于自己的服务器,而python语言的简便也成了爬虫工具的首要语言,我们这篇文章来讲下爬虫,爬取新浪新闻

1、

大家知道,爬虫实际上就是模拟浏览器请求,然后把请求到的数据,经过我们的分析,提取出我们想要的内容,这也就是爬虫的实现
大家知道,爬虫实际上就是模拟浏览器请求,然后把请求到的数据,经过我们的分析,提取出我们想要的内容,这也就是爬虫的实现

2、首先,我们要写爬虫,可以借鉴一些工具,我们先从简单的入门,首先说到请求,我们就会想到python中,非常好用的requests,然后说到分析解析就会用到bs4,然后我们可以直接用pip命令来实现安装,假如安装的是python3,也可以用pip3

python爬虫获取新浪新闻教学

3、安装好这两个类库之后,然后我们就可以先请求数据,查看下新闻的内容,这个时候我们有可能看到的是乱码

python爬虫获取新浪新闻教学

4、怎么处理乱码呢?我们可以拿浏览器打开网页,右键查看网页源代码,我们可以看到编码格式为utf-8

python爬虫获取新浪新闻教学

python爬虫获取新浪新闻教学

5、然后我们在输出的时候添加编码格式,就可以查看到正确编码的数据了

python爬虫获取新浪新闻教学

6、拿到数据之后,我们需要先分析数据,看我们想要的数据在哪里,我们打开浏览器,右键审查,然后按示例图操作,就可以看到我们新闻所在的标签,假如是windows系统,选择开发中工具里面一样

python爬虫获取新浪新闻教学

python爬虫获取新浪新闻教学

7、我们知道属于哪个标签之后,就是用bs4来解析拿到我们想要的数据了

python爬虫获取新浪新闻教学

8、我们想要拿到新闻的具体标题,时间,地址,就需要我们在对元素进行深入的解析,我们还是按之前的方法,找到标题所在的标签

python爬虫获取新浪新闻教学

9、然后我们编写标题时间地址的python程序,就可以爬取出对应的标题内容,时间和地址

python爬虫获取新浪新闻教学

10、

简单的python爬取新闻就讲到这里啦

 总结:以上就是关于Python爬虫获取新浪新闻内容的步骤,感谢大家的的阅读和对三水点靠木的支持。

Python 相关文章推荐
python局部赋值的规则
Mar 07 Python
Django中实现一个高性能计数器(Counter)实例
Jul 09 Python
利用Python实现Windows下的鼠标键盘模拟的实例代码
Jul 13 Python
python中日志logging模块的性能及多进程详解
Jul 18 Python
Python中常见的异常总结
Feb 20 Python
Python3+django2.0+apache2+ubuntu14部署网站上线的方法
Jul 07 Python
Python qqbot 实现qq机器人的示例代码
Jul 11 Python
Python如何实现FTP功能
May 28 Python
Python xlwt模块使用代码实例
Jun 10 Python
使用TensorBoard进行超参数优化的实现
Jul 06 Python
OpenCV Python实现图像指定区域裁剪
Mar 12 Python
python某漫画app逆向
Mar 31 Python
Python爬虫文件下载图文教程
Dec 23 #Python
python爬虫获取百度首页内容教学
Dec 23 #Python
Python爬虫设置代理IP(图文)
Dec 23 #Python
celery4+django2定时任务的实现代码
Dec 23 #Python
python3使用pandas获取股票数据的方法
Dec 22 #Python
Python实现将通信达.day文件读取为DataFrame
Dec 22 #Python
python3 cvs将数据读取为字典的方法
Dec 22 #Python
You might like
Terran热键控制
2020/03/14 星际争霸
Windows下IIS6/Apache2.2.4+MySQL5.2+PHP5.2.1安装配置方法
2007/05/03 PHP
php通过session防url攻击方法
2014/12/10 PHP
php微信公众平台示例代码分析(二)
2016/12/06 PHP
PHP文件后缀不强制为.php方法
2019/03/31 PHP
php生成HTML文件的类方法
2019/10/11 PHP
jQuery操作 input type=checkbox的实现代码
2012/06/14 Javascript
treepanel动态加载数据实现代码
2012/12/15 Javascript
javascript闭包的高级使用方法实例
2013/07/04 Javascript
JavaScript中的toLocaleLowerCase()方法使用详解
2015/06/06 Javascript
基于JavaScript实现高德地图和百度地图提取行政区边界经纬度坐标
2016/01/22 Javascript
Javascript小技能总结(推荐)
2016/06/02 Javascript
javascript中数组和字符串的方法对比
2016/07/20 Javascript
实现JavaScript高性能的数据存储
2016/12/11 Javascript
浅析上传头像示例及其注意事项
2016/12/14 Javascript
js字符限制(字符截取) 一个中文汉字算两个字符
2017/09/12 Javascript
Grunt针对静态文件的压缩,版本控制打包的实例讲解
2017/09/29 Javascript
jQuery操作cookie的示例代码
2019/06/05 jQuery
element跨分页操作选择详解
2020/06/29 Javascript
Python多进程通信Queue、Pipe、Value、Array实例
2014/11/21 Python
pandas DataFrame 删除重复的行的实现方法
2019/01/29 Python
OpenCV-Python 摄像头实时检测人脸代码实例
2019/04/30 Python
树莓派实现移动拍照
2019/06/22 Python
Python Web框架之Django框架文件上传功能详解
2019/08/16 Python
简单了解python中的f.b.u.r函数
2019/11/02 Python
Python描述符descriptor使用原理解析
2020/03/21 Python
django orm模块中的 is_delete用法
2020/05/20 Python
django为Form生成的label标签添加class方式
2020/05/20 Python
Python爬虫入门有哪些基础知识点
2020/06/02 Python
keras训练曲线,混淆矩阵,CNN层输出可视化实例
2020/06/15 Python
详解pyinstaller生成exe的闪退问题解决方案
2020/06/19 Python
革命先烈的英雄事迹材料
2014/02/15 职场文书
缓刑人员思想汇报
2014/10/11 职场文书
2016暑期师德培训心得体会
2016/01/09 职场文书
解决Django transaction进行事务管理踩过的坑
2021/04/24 Python
A22国内电台短波广播频率表
2022/05/10 无线电