Python 通过requests实现腾讯新闻抓取爬虫的方法


Posted in Python onFebruary 22, 2019

最近也是学习了一些爬虫方面的知识。以我自己的理解,通常我们用浏览器查看网页时,是通过浏览器向服务器发送请求,然后服务器响应以后返回一些代码数据,再经过浏览器解析后呈现出来。而爬虫则是通过程序向服务器发送请求,并且将服务器返回的信息,通过一些处理后,就能得到我们想要的数据了。

以下是前段时间我用python写的一个爬取TX新闻标题及其网址的一个简单爬虫:

首先需要用到python中requests(方便全面的http请求库)和 BeautifulSoup(html解析库)。

通过pip来安装这两个库,命令分别是:pip install requests 和 pip install bs4 (如下图)

Python 通过requests实现腾讯新闻抓取爬虫的方法

先放上完整的代码

# coding:utf-8
import requests
from bs4 import BeautifulSoup
 
url = "http://news.qq.com/"
# 请求腾讯新闻的URL,获取其text文本
wbdata = requests.get(url).text
# 对获取到的文本进行解析
soup = BeautifulSoup(wbdata,'lxml')
# 从解析文件中通过select选择器定位指定的元素,返回一个列表
news_titles = soup.select("div.text > em.f14 > a.linkto")
 
# 对返回的列表进行遍历
for n in news_titles:
  title = n.get_text()
  link = n.get("href")
  data = {
    '标题':title,
    '链接':link
  }
  print(data)

首先引入上述两个库

import requests
from bs4 import BeautifulSoup

然后get请求腾讯新闻网url,返回的字符串实质上就是我们手动打开这个网站,然后查看网页源代码所看到的html代码。

wbdata = requests.get(url).text

我们需要的仅仅是某些特定标签里的内容:

Python 通过requests实现腾讯新闻抓取爬虫的方法

Python 通过requests实现腾讯新闻抓取爬虫的方法

可以看出,每条新闻链接、标题都在<div class="text">标签的<em class="f14 124">标签下

之后我们将刚刚请求得到的html代码进行处理,这时候就需要用到BeautifulSoap库了

soup = BeautifulSoup(wbdata,'lxml')

这一行的意思是对获取的信息进行解析处理,也可以将lxml库换成html.parser库,效果是相同的

news_titles = soup.select("div.text > em.f14 > a.linkto")

这一行是利用刚刚经过解析获取的soup对象,选择我们需要的标签,返回值是一个列表。列表中存放了我们需要的所有标签内容。也可以使用BeautifulSoup中的find()方法或findall()方法来对标签进行选择。

最后用 for in 对列表进行遍历,分别取出标签中的内容(新闻标题)和标签中href的值(新闻网址),存放在data字典中

for n in news_titles:
  title = n.get_text()
  link = n.get("href")
  data = {
    '标题':title,
    '链接':link
  }

data存放的就是所有的新闻标题和链接了,下图是部分结果

Python 通过requests实现腾讯新闻抓取爬虫的方法

这样一个爬虫就完成了,当然这只是一个最简单的爬虫。深入爬虫的话还有许多模拟浏览器行为、安全问题、效率优化、多线程等等需要考虑,不得不说爬虫是一个很深的坑。

python中爬虫可以通过各种库或者框架来完成,requests只是比较常用的一种而已。其他语言中也会有许多爬虫方面的库,例如php可以使用curl库。爬虫的原理都是一样的,只是用不同语言、不同库来实现的方法不一样。

以上这篇Python 通过requests实现腾讯新闻抓取爬虫的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python实现的二叉树算法和kmp算法实例
Apr 25 Python
python开发之文件操作用法实例
Nov 13 Python
讲解Python的Scrapy爬虫框架使用代理进行采集的方法
Feb 18 Python
python如何使用unittest测试接口
Apr 04 Python
python3的输入方式及多组输入方法
Oct 17 Python
破解安装Pycharm的方法
Oct 19 Python
Pandas中Series和DataFrame的索引实现
Jun 27 Python
Python3从零开始搭建一个语音对话机器人的实现
Aug 23 Python
使用Python的Turtle库绘制森林的实例
Dec 18 Python
Python变量作用域LEGB用法解析
Feb 04 Python
解决python多线程报错:AttributeError: Can't pickle local object问题
Apr 08 Python
Tensorflow全局设置可见GPU编号操作
Jun 30 Python
解决python3.5 正常安装 却不能直接使用Tkinter包的问题
Feb 22 #Python
浅谈python3.6的tkinter运行问题
Feb 22 #Python
Scrapy框架爬取西刺代理网免费高匿代理的实现代码
Feb 22 #Python
在Python运行时动态查看进程内部信息的方法
Feb 22 #Python
Python开启线程,在函数中开线程的实例
Feb 22 #Python
python 多线程串行和并行的实例
Feb 22 #Python
Python OOP类中的几种函数或方法总结
Feb 22 #Python
You might like
2.PHP入门
2006/10/09 PHP
thinkPHP中session()方法用法详解
2016/12/08 PHP
利用PHP访问带有密码的Redis方法示例
2017/02/09 PHP
thinkPHP+phpexcel实现excel报表输出功能示例
2017/06/06 PHP
Javascript 面向对象 继承
2010/05/13 Javascript
jquery 跨域访问问题解决方法(笔记)
2011/06/08 Javascript
node.js中的buffer.Buffer.byteLength方法使用说明
2014/12/10 Javascript
jQuery中hide()方法用法实例
2014/12/24 Javascript
ajax如何实现页面局部跳转与结果返回
2015/08/24 Javascript
JS实现按比例缩放图片的方法(附C#版代码)
2015/12/08 Javascript
jquery ztree异步搜索(搜叶子)实践
2016/02/25 Javascript
javascript简易画板开发
2020/04/12 Javascript
关于js函数解释(包括内嵌,对象等)
2016/11/20 Javascript
原生JS下拉加载插件分享
2016/12/26 Javascript
angular中实现控制器之间传递参数的方式
2017/04/24 Javascript
iframe高度自适应及隐藏滚动条的实例详解
2017/09/29 Javascript
vue.js分页中单击页码更换页面内容的方法(配合spring springmvc)
2018/02/10 Javascript
vue项目部署到Apache服务器中遇到的问题解决
2018/08/24 Javascript
vue v-for出来的列表,点击某个li使得当前被点击的li字体变红操作
2020/07/17 Javascript
基于脚手架创建Vue项目实现步骤详解
2020/08/03 Javascript
[02:43]DOTA2英雄基础教程 圣堂刺客
2013/12/09 DOTA
python操作sqlite的CRUD实例分析
2015/05/08 Python
python爬虫_实现校园网自动重连脚本的教程
2018/04/22 Python
Python制作exe文件简单流程
2019/01/24 Python
python  文件的基本操作 菜中菜功能的实例代码
2019/07/17 Python
python中Pexpect的工作流程实例讲解
2021/03/02 Python
调用HTML5的Canvas API绘制图形的快速入门指南
2016/06/17 HTML / CSS
美国殿堂级滑板、冲浪、滑雪服装品牌:Volcom(钻石)
2017/04/20 全球购物
华硕新加坡官方网上商店:ASUS Singapore
2020/07/09 全球购物
办公室前台岗位职责范本
2013/12/10 职场文书
银行营业厅大堂经理岗位职责
2014/01/06 职场文书
岗位安全生产责任书
2014/07/28 职场文书
学校师德师风自我剖析材料
2014/09/29 职场文书
2014年专项整治工作总结
2014/11/17 职场文书
2016年妇联“6﹒26国际禁毒日”宣传活动总结
2016/04/05 职场文书
python文件目录操作之os模块
2021/05/08 Python