Python爬虫实现(伪)球迷速成


Posted in Python onJune 10, 2018

Python爬虫实现(伪)球迷速成

还有4天就世界杯了,作为一个资深(伪)球迷,必须要实时关注世界杯相关新闻,了解各个球队动态,这样才能在一堆球迷中如(大)鱼(吹)得(特)水(吹),迎接大家仰慕的目光!

给大家分享一个快速了解相关信息的办法:刷论坛!我们来一起做个虎扑论坛的爬虫吧!

抓包获取虎扑论坛相关帖子内容,逐条显示!

先来观察下网页,打开论坛首页,选择国际足球

Python爬虫实现(伪)球迷速成

然后往下拉,找到世界杯相关内容

Python爬虫实现(伪)球迷速成 

这里就是我们的目标了,所有相关的新闻都会在这里显示,用F12打开“开发者工具”然后往下浏览看看数据包

Python爬虫实现(伪)球迷速成

注意箭头指向的那几个地方!

这就是刚才浏览的新闻所在的json包,来看看具体数据是什么

Python爬虫实现(伪)球迷速成

ok,标题、地址、发布时间包括来源都已经出现了!我们可以直接抓取json数据然后取出相关内容!

再进入具体新闻页面看看

世界杯快到了,看我用Python爬虫实现(伪)球迷速成! 

所有的文本内容,都在<div class="artical-main-content">这个标签下的<p></p>标签内,我们可以用xpath直接取div下的所有文本内容!

这里就不一 一说明了,直接上代码,并录个小的GIF图片给大家看看效果

#Q群542110741
# -*- coding:utf-8 -*-
import requests
from lxml import etree

header = {
  'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:60.0) Gecko/20100101 Firefox/60.0',
  'Host':'soccer.hupu.com',
  'Referer':'https://soccer.hupu.com/'}
i = 0
while 1:
  #构建循环页面翻页
  url = 'https://soccer.hupu.com/home/latest-news?league=世界杯&page='
  i += 1
  #获取json数据,一页20个
  html = requests.get(url+str(i),headers=header).json()['result']
  for info in html:
    time_r = info['time']#发布时间
    title = info['title']#标题
    url_r = info['url']#新闻链接
    origin = info['origin']#来源
    print(title)
    print('发布时间:',time_r,' '*5,'来自:',origin)
    head = header
    head['Host'] = 'voice.hupu.com'#更改header中Host参数
    html_r = requests.get(url_r,headers=head)#获取新闻详情
    html_r.encoding = 'utf-8'#编码格式指定
    #获取div下的所有文本
    datas = etree.HTML(html_r.text).xpath('//div[@class="artical-content-read"]')[0].xpath('string(.)').strip()
    print('\n'+'内容:'+'\n'*2,datas,'\n')
    #可由用户手动退出循环
    if input('任意键继续,“q”退出') in ['q', 'Q']:
      exit()

总结

以上所述是小编给大家介绍的Python爬虫实现(伪)球迷速成,希望对大家有所帮助,如果大家有任何疑问欢迎给我留言,小编会及时回复大家的!

Python 相关文章推荐
举例讲解Python中装饰器的用法
Apr 27 Python
python使用wmi模块获取windows下的系统信息 监控系统
Oct 27 Python
opencv python 图像去噪的实现方法
Aug 31 Python
详解将Django部署到Centos7全攻略
Sep 26 Python
django模板结构优化的方法
Feb 28 Python
详解python持久化文件读写
Apr 06 Python
flask应用部署到服务器的方法
Jul 12 Python
利用Python进行图像的加法,图像混合(附代码)
Jul 14 Python
python 3.7.4 安装 opencv的教程
Oct 10 Python
Python如何实现的二分查找算法
May 27 Python
如何利用python生成MD5并去重
Dec 07 Python
Pandas 数据编码的十种方法
Apr 20 Python
python利用微信公众号实现报警功能
Jun 10 #Python
Python if语句知识点用法总结
Jun 10 #Python
Python continue继续循环用法总结
Jun 10 #Python
Python求解任意闭区间的所有素数
Jun 10 #Python
Python学习小技巧总结
Jun 10 #Python
python计算两个地址之间的距离方法
Jun 09 #Python
python 对dataframe下面的值进行大规模赋值方法
Jun 09 #Python
You might like
php设计模式 Singleton(单例模式)
2011/06/26 PHP
迁移PHP版本到PHP7
2015/02/06 PHP
php使用timthumb生成缩略图的方法
2016/01/22 PHP
jquery cookie插件代码类
2009/05/26 Javascript
javascript操作css属性
2013/12/30 Javascript
Node.js中的流(Stream)介绍
2015/03/30 Javascript
jquery分页插件jquery.pagination.js使用方法解析
2016/04/01 Javascript
每日十条JavaScript经验技巧(二)
2016/06/23 Javascript
值得分享的JavaScript实现图片轮播组件
2016/11/21 Javascript
Vue.js实现表格动态增加删除的方法(附源码下载)
2017/01/20 Javascript
带你了解session和cookie作用原理区别和用法
2017/08/14 Javascript
select自定义小三角样式代码(实用总结)
2017/08/18 Javascript
Vue完整项目构建(进阶篇)
2018/02/10 Javascript
Rollup处理并打包JS文件项目实例代码
2018/05/31 Javascript
解决vue更新路由router-view复用组件内容不刷新的问题
2019/11/04 Javascript
[41:20]2014 DOTA2华西杯精英邀请赛 5 24 NewBee VS DK
2014/05/26 DOTA
Python3安装Scrapy的方法步骤
2017/11/23 Python
用Python进行简单图像识别(验证码)
2018/01/19 Python
python实现一个简单的并查集的示例代码
2018/03/19 Python
Django中的Model操作表的实现
2018/07/24 Python
python3.5基于TCP实现文件传输
2020/03/20 Python
python游戏地图最短路径求解
2019/01/16 Python
Python (Win)readline和tab补全的安装方法
2019/08/27 Python
Python 实现黑客帝国中的字符雨的示例代码
2020/02/20 Python
如何向scrapy中的spider传递参数的几种方法
2020/11/18 Python
福克斯租车:Fox Rent A Car
2017/04/13 全球购物
Abbacino官网:包、钱包和女士配饰
2019/04/15 全球购物
创立科技Java面试题
2015/11/29 面试题
教师评优的个人自我评价分享
2013/09/19 职场文书
师范生自我鉴定
2014/03/20 职场文书
食品安全标语
2014/06/07 职场文书
法定代表人资格证明书
2014/09/11 职场文书
2015元旦晚会主持词(开场白+结束语)
2014/12/14 职场文书
听证通知书
2015/04/24 职场文书
2021年国产动漫公司排行前十名,玄机科技上榜,第二推出过铠甲勇士
2022/03/18 杂记
教你如何用cmd快速登录服务器
2022/06/10 Servers