Python 通过requests实现腾讯新闻抓取爬虫的方法


Posted in Python onFebruary 22, 2019

最近也是学习了一些爬虫方面的知识。以我自己的理解,通常我们用浏览器查看网页时,是通过浏览器向服务器发送请求,然后服务器响应以后返回一些代码数据,再经过浏览器解析后呈现出来。而爬虫则是通过程序向服务器发送请求,并且将服务器返回的信息,通过一些处理后,就能得到我们想要的数据了。

以下是前段时间我用python写的一个爬取TX新闻标题及其网址的一个简单爬虫:

首先需要用到python中requests(方便全面的http请求库)和 BeautifulSoup(html解析库)。

通过pip来安装这两个库,命令分别是:pip install requests 和 pip install bs4 (如下图)

Python 通过requests实现腾讯新闻抓取爬虫的方法

先放上完整的代码

# coding:utf-8
import requests
from bs4 import BeautifulSoup
 
url = "http://news.qq.com/"
# 请求腾讯新闻的URL,获取其text文本
wbdata = requests.get(url).text
# 对获取到的文本进行解析
soup = BeautifulSoup(wbdata,'lxml')
# 从解析文件中通过select选择器定位指定的元素,返回一个列表
news_titles = soup.select("div.text > em.f14 > a.linkto")
 
# 对返回的列表进行遍历
for n in news_titles:
  title = n.get_text()
  link = n.get("href")
  data = {
    '标题':title,
    '链接':link
  }
  print(data)

首先引入上述两个库

import requests
from bs4 import BeautifulSoup

然后get请求腾讯新闻网url,返回的字符串实质上就是我们手动打开这个网站,然后查看网页源代码所看到的html代码。

wbdata = requests.get(url).text

我们需要的仅仅是某些特定标签里的内容:

Python 通过requests实现腾讯新闻抓取爬虫的方法

Python 通过requests实现腾讯新闻抓取爬虫的方法

可以看出,每条新闻链接、标题都在<div class="text">标签的<em class="f14 124">标签下

之后我们将刚刚请求得到的html代码进行处理,这时候就需要用到BeautifulSoap库了

soup = BeautifulSoup(wbdata,'lxml')

这一行的意思是对获取的信息进行解析处理,也可以将lxml库换成html.parser库,效果是相同的

news_titles = soup.select("div.text > em.f14 > a.linkto")

这一行是利用刚刚经过解析获取的soup对象,选择我们需要的标签,返回值是一个列表。列表中存放了我们需要的所有标签内容。也可以使用BeautifulSoup中的find()方法或findall()方法来对标签进行选择。

最后用 for in 对列表进行遍历,分别取出标签中的内容(新闻标题)和标签中href的值(新闻网址),存放在data字典中

for n in news_titles:
  title = n.get_text()
  link = n.get("href")
  data = {
    '标题':title,
    '链接':link
  }

data存放的就是所有的新闻标题和链接了,下图是部分结果

Python 通过requests实现腾讯新闻抓取爬虫的方法

这样一个爬虫就完成了,当然这只是一个最简单的爬虫。深入爬虫的话还有许多模拟浏览器行为、安全问题、效率优化、多线程等等需要考虑,不得不说爬虫是一个很深的坑。

python中爬虫可以通过各种库或者框架来完成,requests只是比较常用的一种而已。其他语言中也会有许多爬虫方面的库,例如php可以使用curl库。爬虫的原理都是一样的,只是用不同语言、不同库来实现的方法不一样。

以上这篇Python 通过requests实现腾讯新闻抓取爬虫的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python元组操作实例解析
Sep 23 Python
Python中字典和JSON互转操作实例
Jan 19 Python
python模块之time模块(实例讲解)
Sep 13 Python
python读取文本中数据并转化为DataFrame的实例
Apr 10 Python
浅谈关于Python3中venv虚拟环境
Aug 01 Python
Python干货:分享Python绘制六种可视化图表
Aug 27 Python
python实现简易淘宝购物
Nov 22 Python
python 初始化一个定长的数组实例
Dec 02 Python
python 字典套字典或列表的示例
Dec 16 Python
Python列表切片常用操作实例解析
Mar 10 Python
python实现一次性封装多条sql语句(begin end)
Jun 06 Python
Pandas替换及部分替换(replace)实现流程详解
Oct 12 Python
解决python3.5 正常安装 却不能直接使用Tkinter包的问题
Feb 22 #Python
浅谈python3.6的tkinter运行问题
Feb 22 #Python
Scrapy框架爬取西刺代理网免费高匿代理的实现代码
Feb 22 #Python
在Python运行时动态查看进程内部信息的方法
Feb 22 #Python
Python开启线程,在函数中开线程的实例
Feb 22 #Python
python 多线程串行和并行的实例
Feb 22 #Python
Python OOP类中的几种函数或方法总结
Feb 22 #Python
You might like
第五章 php数组操作
2011/12/30 PHP
解密ThinkPHP3.1.2版本之模块和操作映射
2014/06/19 PHP
PHP连接SQLServer2005的方法
2015/01/27 PHP
CI框架AR操作(数组形式)实现插入多条sql数据的方法
2016/05/18 PHP
thinkPHP5.0框架命名空间详解
2017/03/18 PHP
PHP PDOStatement::getAttribute讲解
2019/02/01 PHP
php+iframe 实现上传文件功能示例
2020/03/04 PHP
仿163填写邮件地址自动显示下拉(无优化)
2008/11/05 Javascript
js下用gb2312编码解码实现方法
2009/12/31 Javascript
修改jquery里的dialog对话框插件为框架页(iframe) 的方法
2010/09/14 Javascript
javascript实现的使用方向键控制光标在table单元格中切换
2010/11/17 Javascript
JavaScript显示当然日期和时间即年月日星期和时间
2013/10/29 Javascript
jquery操作对象数组元素方法详解
2014/11/26 Javascript
jQuery中on()方法用法实例详解
2015/02/06 Javascript
将JavaScript的jQuery库中表单转化为JSON对象的方法
2015/11/17 Javascript
jsonp跨域请求数据实现手机号码查询实例分析
2015/12/12 Javascript
JS实现将数字金额转换为大写人民币汉字的方法
2016/08/02 Javascript
深入理解bootstrap框架之入门准备
2016/10/09 Javascript
Node.js之网络通讯模块实现浅析
2017/04/01 Javascript
js 用于检测类数组对象的函数方法
2017/05/02 Javascript
利用node.js如何创建子进程详解
2017/12/09 Javascript
JavaScript时间与时间戳的转换操作实例分析
2018/12/07 Javascript
JS双向链表实现与使用方法示例(增加一个previous属性实现)
2019/01/31 Javascript
vue-router的两种模式的区别
2019/05/30 Javascript
vue实现PC端分辨率适配操作
2020/08/03 Javascript
vue 实现根据data中的属性值来设置不同的样式
2020/08/04 Javascript
JavaScript实现音乐导航效果
2020/11/19 Javascript
python实现nao机器人手臂动作控制
2019/04/29 Python
Python从函数参数类型引出元组实例分析
2019/05/28 Python
对Django的restful用法详解(自带的增删改查)
2019/08/28 Python
Python多个装饰器的调用顺序实例解析
2020/05/22 Python
物流仓管员工作职责
2014/01/06 职场文书
应聘教师求职信
2014/07/19 职场文书
安全例会汇报材料
2014/08/23 职场文书
房屋授权委托书范本
2014/10/07 职场文书
Python实现打乒乓小游戏
2021/09/25 Python