Python爬虫实现(伪)球迷速成


Posted in Python onJune 10, 2018

Python爬虫实现(伪)球迷速成

还有4天就世界杯了,作为一个资深(伪)球迷,必须要实时关注世界杯相关新闻,了解各个球队动态,这样才能在一堆球迷中如(大)鱼(吹)得(特)水(吹),迎接大家仰慕的目光!

给大家分享一个快速了解相关信息的办法:刷论坛!我们来一起做个虎扑论坛的爬虫吧!

抓包获取虎扑论坛相关帖子内容,逐条显示!

先来观察下网页,打开论坛首页,选择国际足球

Python爬虫实现(伪)球迷速成

然后往下拉,找到世界杯相关内容

Python爬虫实现(伪)球迷速成 

这里就是我们的目标了,所有相关的新闻都会在这里显示,用F12打开“开发者工具”然后往下浏览看看数据包

Python爬虫实现(伪)球迷速成

注意箭头指向的那几个地方!

这就是刚才浏览的新闻所在的json包,来看看具体数据是什么

Python爬虫实现(伪)球迷速成

ok,标题、地址、发布时间包括来源都已经出现了!我们可以直接抓取json数据然后取出相关内容!

再进入具体新闻页面看看

世界杯快到了,看我用Python爬虫实现(伪)球迷速成! 

所有的文本内容,都在<div class="artical-main-content">这个标签下的<p></p>标签内,我们可以用xpath直接取div下的所有文本内容!

这里就不一 一说明了,直接上代码,并录个小的GIF图片给大家看看效果

#Q群542110741
# -*- coding:utf-8 -*-
import requests
from lxml import etree

header = {
  'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:60.0) Gecko/20100101 Firefox/60.0',
  'Host':'soccer.hupu.com',
  'Referer':'https://soccer.hupu.com/'}
i = 0
while 1:
  #构建循环页面翻页
  url = 'https://soccer.hupu.com/home/latest-news?league=世界杯&page='
  i += 1
  #获取json数据,一页20个
  html = requests.get(url+str(i),headers=header).json()['result']
  for info in html:
    time_r = info['time']#发布时间
    title = info['title']#标题
    url_r = info['url']#新闻链接
    origin = info['origin']#来源
    print(title)
    print('发布时间:',time_r,' '*5,'来自:',origin)
    head = header
    head['Host'] = 'voice.hupu.com'#更改header中Host参数
    html_r = requests.get(url_r,headers=head)#获取新闻详情
    html_r.encoding = 'utf-8'#编码格式指定
    #获取div下的所有文本
    datas = etree.HTML(html_r.text).xpath('//div[@class="artical-content-read"]')[0].xpath('string(.)').strip()
    print('\n'+'内容:'+'\n'*2,datas,'\n')
    #可由用户手动退出循环
    if input('任意键继续,“q”退出') in ['q', 'Q']:
      exit()

总结

以上所述是小编给大家介绍的Python爬虫实现(伪)球迷速成,希望对大家有所帮助,如果大家有任何疑问欢迎给我留言,小编会及时回复大家的!

Python 相关文章推荐
浅谈python中set使用
Jun 30 Python
Python 由字符串函数名得到对应的函数(实例讲解)
Aug 10 Python
详解Python 模拟实现生产者消费者模式的实例
Aug 10 Python
使用Python写一个小游戏
Apr 02 Python
Win10下python 2.7.13 安装配置方法图文教程
Sep 18 Python
numpy中的ndarray方法和属性详解
May 27 Python
python 日期排序的实例代码
Jul 11 Python
对Django中的权限和分组管理实例讲解
Aug 16 Python
PyCharm GUI界面开发和exe文件生成的实现
Mar 04 Python
深入了解Python装饰器的高级用法
Aug 13 Python
python向xls写入数据(包括合并,边框,对齐,列宽)
Feb 02 Python
使paramiko库执行命令时在给定的时间强制退出功能的实现
Mar 03 Python
python利用微信公众号实现报警功能
Jun 10 #Python
Python if语句知识点用法总结
Jun 10 #Python
Python continue继续循环用法总结
Jun 10 #Python
Python求解任意闭区间的所有素数
Jun 10 #Python
Python学习小技巧总结
Jun 10 #Python
python计算两个地址之间的距离方法
Jun 09 #Python
python 对dataframe下面的值进行大规模赋值方法
Jun 09 #Python
You might like
php使浏览器直接下载pdf文件的方法
2013/11/15 PHP
PHP中创建和验证哈希的简单方法实探
2015/07/06 PHP
smarty简单应用实例
2015/11/03 PHP
WordPress的主题编写中获取头部模板和底部模板
2015/12/28 PHP
php设计模式之委托模式
2016/02/13 PHP
通过正则表达式实现表单验证是否为中文
2014/02/18 Javascript
Javascript中实现trim()函数的两种方法
2015/02/04 Javascript
javascript 动态修改css样式方法汇总(四种方法)
2015/08/27 Javascript
AngularJS 使用$sce控制代码安全检查
2016/01/05 Javascript
移动端jQuery修正Web页面滑动时div问题的两则实例
2016/05/30 Javascript
jQuery过滤选择器经典应用
2016/08/18 Javascript
使用Node搭建reactSSR服务端渲染架构
2018/08/30 Javascript
React 使用recharts实现散点地图的示例代码
2018/12/07 Javascript
swiper自定义分页器的样式
2020/09/14 Javascript
如何在VUE中使用vue-awesome-swiper
2021/01/04 Vue.js
使用Python脚本生成随机IP的简单方法
2015/07/30 Python
Python实现类的创建与使用方法示例
2017/07/25 Python
python爬虫获取京东手机图片的图文教程
2017/12/29 Python
python3+PyQt5使用数据库表视图
2018/04/24 Python
Python3.6实现带有简单界面的有道翻译小程序
2019/04/16 Python
Python socket非阻塞模块应用示例
2019/09/12 Python
利用python实现PSO算法优化二元函数
2019/11/13 Python
python实现简单的购物程序代码实例
2020/03/03 Python
详解python中groupby函数通俗易懂
2020/05/14 Python
python爬虫爬取某网站视频的示例代码
2021/02/20 Python
高品质和独特的产品世界:Creations and Collections
2018/01/07 全球购物
lookfantastic荷兰:在线购买奢华护肤、护发和化妆品
2018/11/27 全球购物
娇韵诗Clarins意大利官方网站:法国天然护肤品牌
2020/03/11 全球购物
经营理念标语
2014/06/21 职场文书
民政局离婚协议书范本
2014/10/20 职场文书
经验交流材料格式
2014/12/30 职场文书
2015年党风廉政建设责任书
2015/01/29 职场文书
九华山导游词
2015/02/03 职场文书
幼儿园亲子活动通知
2015/04/24 职场文书
同事离别感言
2015/08/04 职场文书
小学生六年级作文之关于感恩
2019/08/16 职场文书