编程 Python

Python爬虫实现（伪）球迷速成

Posted in Python onJune 10, 2018

Python爬虫实现（伪）球迷速成

还有4天就世界杯了，作为一个资深（伪）球迷，必须要实时关注世界杯相关新闻，了解各个球队动态，这样才能在一堆球迷中如（大）鱼（吹）得（特）水（吹），迎接大家仰慕的目光!

给大家分享一个快速了解相关信息的办法：刷论坛！我们来一起做个虎扑论坛的爬虫吧！

抓包获取虎扑论坛相关帖子内容，逐条显示！

先来观察下网页，打开论坛首页，选择国际足球

Python爬虫实现（伪）球迷速成

然后往下拉，找到世界杯相关内容

Python爬虫实现（伪）球迷速成

这里就是我们的目标了，所有相关的新闻都会在这里显示，用F12打开“开发者工具”然后往下浏览看看数据包

Python爬虫实现（伪）球迷速成

注意箭头指向的那几个地方！

这就是刚才浏览的新闻所在的json包，来看看具体数据是什么

Python爬虫实现（伪）球迷速成

ok，标题、地址、发布时间包括来源都已经出现了!我们可以直接抓取json数据然后取出相关内容！

再进入具体新闻页面看看

世界杯快到了，看我用Python爬虫实现（伪）球迷速成！

所有的文本内容，都在<div class="artical-main-content">这个标签下的<p></p>标签内，我们可以用xpath直接取div下的所有文本内容!

这里就不一一说明了，直接上代码，并录个小的GIF图片给大家看看效果

#Q群542110741
# -*- coding:utf-8 -*-
import requests
from lxml import etree

header = {
  'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:60.0) Gecko/20100101 Firefox/60.0',
  'Host':'soccer.hupu.com',
  'Referer':'https://soccer.hupu.com/'}
i = 0
while 1:
  #构建循环页面翻页
  url = 'https://soccer.hupu.com/home/latest-news?league=世界杯&page='
  i += 1
  #获取json数据，一页20个
  html = requests.get(url+str(i),headers=header).json()['result']
  for info in html:
    time_r = info['time']#发布时间
    title = info['title']#标题
    url_r = info['url']#新闻链接
    origin = info['origin']#来源
    print(title)
    print('发布时间:',time_r,' '*5,'来自：',origin)
    head = header
    head['Host'] = 'voice.hupu.com'#更改header中Host参数
    html_r = requests.get(url_r,headers=head)#获取新闻详情
    html_r.encoding = 'utf-8'#编码格式指定
    #获取div下的所有文本
    datas = etree.HTML(html_r.text).xpath('//div[@class="artical-content-read"]')[0].xpath('string(.)').strip()
    print('\n'+'内容：'+'\n'*2,datas,'\n')
    #可由用户手动退出循环
    if input('任意键继续，“q”退出') in ['q', 'Q']:
      exit()

总结

以上所述是小编给大家介绍的Python爬虫实现（伪）球迷速成，希望对大家有所帮助，如果大家有任何疑问欢迎给我留言，小编会及时回复大家的！

Python爬虫实现（伪）球迷速成

- Author -

mrr

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

浅谈python中set使用

Jun 30 Python

Python 由字符串函数名得到对应的函数(实例讲解)

Aug 10 Python

详解Python 模拟实现生产者消费者模式的实例

Aug 10 Python

使用Python写一个小游戏

Apr 02 Python

Win10下python 2.7.13 安装配置方法图文教程

Sep 18 Python

numpy中的ndarray方法和属性详解

May 27 Python

python 日期排序的实例代码

Jul 11 Python

对Django中的权限和分组管理实例讲解

Aug 16 Python

PyCharm GUI界面开发和exe文件生成的实现

Mar 04 Python

深入了解Python装饰器的高级用法

Aug 13 Python

python向xls写入数据(包括合并，边框，对齐，列宽）

Feb 02 Python

使paramiko库执行命令时在给定的时间强制退出功能的实现

Mar 03 Python

python利用微信公众号实现报警功能

Jun 10 #Python

Python if语句知识点用法总结

Jun 10 #Python

Python continue继续循环用法总结

Jun 10 #Python

Python求解任意闭区间的所有素数

Jun 10 #Python

Python学习小技巧总结

Jun 10 #Python

python计算两个地址之间的距离方法

Jun 09 #Python

python 对dataframe下面的值进行大规模赋值方法

Jun 09 #Python

You might like

php使浏览器直接下载pdf文件的方法

2013/11/15 PHP

PHP中创建和验证哈希的简单方法实探

2015/07/06 PHP

smarty简单应用实例

2015/11/03 PHP

WordPress的主题编写中获取头部模板和底部模板

2015/12/28 PHP

php设计模式之委托模式

2016/02/13 PHP

通过正则表达式实现表单验证是否为中文

2014/02/18 Javascript

Javascript中实现trim()函数的两种方法

2015/02/04 Javascript

javascript 动态修改css样式方法汇总(四种方法)

2015/08/27 Javascript

AngularJS 使用$sce控制代码安全检查

2016/01/05 Javascript

移动端jQuery修正Web页面滑动时div问题的两则实例

2016/05/30 Javascript

jQuery过滤选择器经典应用

2016/08/18 Javascript

使用Node搭建reactSSR服务端渲染架构

2018/08/30 Javascript

React 使用recharts实现散点地图的示例代码

2018/12/07 Javascript

swiper自定义分页器的样式

2020/09/14 Javascript

如何在VUE中使用vue-awesome-swiper

2021/01/04 Vue.js

使用Python脚本生成随机IP的简单方法

2015/07/30 Python

Python实现类的创建与使用方法示例

2017/07/25 Python

python爬虫获取京东手机图片的图文教程

2017/12/29 Python

python3+PyQt5使用数据库表视图

2018/04/24 Python

Python3.6实现带有简单界面的有道翻译小程序

2019/04/16 Python

Python socket非阻塞模块应用示例

2019/09/12 Python

利用python实现PSO算法优化二元函数

2019/11/13 Python

python实现简单的购物程序代码实例

2020/03/03 Python

详解python中groupby函数通俗易懂

2020/05/14 Python

python爬虫爬取某网站视频的示例代码

2021/02/20 Python

高品质和独特的产品世界：Creations and Collections

2018/01/07 全球购物

lookfantastic荷兰：在线购买奢华护肤、护发和化妆品

2018/11/27 全球购物

娇韵诗Clarins意大利官方网站：法国天然护肤品牌

2020/03/11 全球购物

经营理念标语

2014/06/21 职场文书

民政局离婚协议书范本

2014/10/20 职场文书

经验交流材料格式

2014/12/30 职场文书

2015年党风廉政建设责任书

2015/01/29 职场文书

九华山导游词

2015/02/03 职场文书

幼儿园亲子活动通知

2015/04/24 职场文书

同事离别感言

2015/08/04 职场文书

小学生六年级作文之关于感恩

2019/08/16 职场文书