python爬虫获取新浪新闻教学


Posted in Python onDecember 23, 2018

一提到python,大家经常会提到爬虫,爬虫近来兴起的原因我觉得主要还是因为大数据的原因,大数据导致了我们的数据不在只存在于自己的服务器,而python语言的简便也成了爬虫工具的首要语言,我们这篇文章来讲下爬虫,爬取新浪新闻

1、

大家知道,爬虫实际上就是模拟浏览器请求,然后把请求到的数据,经过我们的分析,提取出我们想要的内容,这也就是爬虫的实现
大家知道,爬虫实际上就是模拟浏览器请求,然后把请求到的数据,经过我们的分析,提取出我们想要的内容,这也就是爬虫的实现

2、首先,我们要写爬虫,可以借鉴一些工具,我们先从简单的入门,首先说到请求,我们就会想到python中,非常好用的requests,然后说到分析解析就会用到bs4,然后我们可以直接用pip命令来实现安装,假如安装的是python3,也可以用pip3

python爬虫获取新浪新闻教学

3、安装好这两个类库之后,然后我们就可以先请求数据,查看下新闻的内容,这个时候我们有可能看到的是乱码

python爬虫获取新浪新闻教学

4、怎么处理乱码呢?我们可以拿浏览器打开网页,右键查看网页源代码,我们可以看到编码格式为utf-8

python爬虫获取新浪新闻教学

python爬虫获取新浪新闻教学

5、然后我们在输出的时候添加编码格式,就可以查看到正确编码的数据了

python爬虫获取新浪新闻教学

6、拿到数据之后,我们需要先分析数据,看我们想要的数据在哪里,我们打开浏览器,右键审查,然后按示例图操作,就可以看到我们新闻所在的标签,假如是windows系统,选择开发中工具里面一样

python爬虫获取新浪新闻教学

python爬虫获取新浪新闻教学

7、我们知道属于哪个标签之后,就是用bs4来解析拿到我们想要的数据了

python爬虫获取新浪新闻教学

8、我们想要拿到新闻的具体标题,时间,地址,就需要我们在对元素进行深入的解析,我们还是按之前的方法,找到标题所在的标签

python爬虫获取新浪新闻教学

9、然后我们编写标题时间地址的python程序,就可以爬取出对应的标题内容,时间和地址

python爬虫获取新浪新闻教学

10、

简单的python爬取新闻就讲到这里啦

 总结:以上就是关于Python爬虫获取新浪新闻内容的步骤,感谢大家的的阅读和对三水点靠木的支持。

Python 相关文章推荐
在 Python 应用中使用 MongoDB的方法
Jan 05 Python
python算法演练_One Rule 算法(详解)
May 17 Python
对Python中type打开文件的方式介绍
Apr 28 Python
Python正则表达式和元字符详解
Nov 29 Python
Python 2/3下处理cjk编码的zip文件的方法
Apr 26 Python
python解析xml简单示例
Jun 21 Python
详解python中的生成器、迭代器、闭包、装饰器
Aug 22 Python
python使用PIL和matplotlib获取图片像素点并合并解析
Sep 10 Python
Jupyter打开图形界面并画出正弦函数图像实例
Apr 24 Python
Python的Django框架实现数据库查询(不返回QuerySet的方法)
May 19 Python
Python函数参数分类原理详解
May 28 Python
python闭包与引用以及需要注意的陷阱
Sep 18 Python
Python爬虫文件下载图文教程
Dec 23 #Python
python爬虫获取百度首页内容教学
Dec 23 #Python
Python爬虫设置代理IP(图文)
Dec 23 #Python
celery4+django2定时任务的实现代码
Dec 23 #Python
python3使用pandas获取股票数据的方法
Dec 22 #Python
Python实现将通信达.day文件读取为DataFrame
Dec 22 #Python
python3 cvs将数据读取为字典的方法
Dec 22 #Python
You might like
PHP中开发XML应用程序之基础篇 添加节点 删除节点 查询节点 查询节
2010/07/09 PHP
php 广告调用类代码(支持Flash调用)
2011/08/11 PHP
PHP性能优化准备篇图解PEAR安装
2011/12/05 PHP
ThinkPHP让分页保持搜索状态的方法
2014/07/02 PHP
PHP给源代码加密的几种方法汇总(推荐)
2018/02/06 PHP
postman的安装与使用方法(模拟Get和Post请求)
2018/08/06 PHP
Prototype PeriodicalExecuter对象 学习
2009/07/19 Javascript
JQuery操作iframe父页面与子页面的元素与方法(实例讲解)
2013/11/20 Javascript
jquery全选checkBox功能实现代码(取消全选功能)
2013/12/10 Javascript
js使用for循环及if语句判断多个一样的name
2014/09/09 Javascript
jQuery简单实现QQ空间点赞已经取消点赞
2015/04/02 Javascript
基于vue2.0+vuex的日期选择组件功能实现
2017/03/13 Javascript
Vue2.0 UI框架ElementUI使用方法详解
2017/04/14 Javascript
微信小程序三级联动选择器使用方法
2020/05/19 Javascript
使用Vue如何写一个双向数据绑定(面试常见)
2018/04/20 Javascript
微信小程序实现长按删除图片的示例
2018/05/18 Javascript
微信小程序实现留言板(Storage)
2018/11/02 Javascript
支付宝小程序自定义弹窗dialog插件的实现代码
2018/11/30 Javascript
[01:12](回顾)DOTA2国际邀请赛,全世界DOTAer的盛宴
2014/07/01 DOTA
python调用windows api锁定计算机示例
2014/04/17 Python
Python实现周期性抓取网页内容的方法
2015/11/04 Python
python开发之基于thread线程搜索本地文件的方法
2015/11/11 Python
Python数据类型详解(二)列表
2016/05/08 Python
Python使用三种方法实现PCA算法
2017/12/12 Python
Django 使用easy_thumbnails压缩上传的图片方法
2019/07/26 Python
pycharm实现在虚拟环境中引入别人的项目
2020/03/09 Python
python-jwt用户认证食用教学的实现方法
2021/01/19 Python
解决pip安装tensorflow中出现的no module named tensorflow.python 问题方法
2021/02/20 Python
HTML5实现预览本地图片
2016/02/17 HTML / CSS
Banggood官网:面向全球客户的综合商城
2017/04/19 全球购物
触发器(trigger)的功能都有哪些?写出一个触发器的例子
2012/09/17 面试题
会计电算化毕业生自荐信
2014/03/03 职场文书
正科级干部考察材料
2014/05/29 职场文书
2016年百日安全生产活动总结
2016/04/06 职场文书
MySql重置root密码 --skip-grant-tables
2022/04/11 MySQL
MySQL中EXPLAIN语句及用法
2022/05/20 MySQL