Python爬虫实现(伪)球迷速成


Posted in Python onJune 10, 2018

Python爬虫实现(伪)球迷速成

还有4天就世界杯了,作为一个资深(伪)球迷,必须要实时关注世界杯相关新闻,了解各个球队动态,这样才能在一堆球迷中如(大)鱼(吹)得(特)水(吹),迎接大家仰慕的目光!

给大家分享一个快速了解相关信息的办法:刷论坛!我们来一起做个虎扑论坛的爬虫吧!

抓包获取虎扑论坛相关帖子内容,逐条显示!

先来观察下网页,打开论坛首页,选择国际足球

Python爬虫实现(伪)球迷速成

然后往下拉,找到世界杯相关内容

Python爬虫实现(伪)球迷速成 

这里就是我们的目标了,所有相关的新闻都会在这里显示,用F12打开“开发者工具”然后往下浏览看看数据包

Python爬虫实现(伪)球迷速成

注意箭头指向的那几个地方!

这就是刚才浏览的新闻所在的json包,来看看具体数据是什么

Python爬虫实现(伪)球迷速成

ok,标题、地址、发布时间包括来源都已经出现了!我们可以直接抓取json数据然后取出相关内容!

再进入具体新闻页面看看

世界杯快到了,看我用Python爬虫实现(伪)球迷速成! 

所有的文本内容,都在<div class="artical-main-content">这个标签下的<p></p>标签内,我们可以用xpath直接取div下的所有文本内容!

这里就不一 一说明了,直接上代码,并录个小的GIF图片给大家看看效果

#Q群542110741
# -*- coding:utf-8 -*-
import requests
from lxml import etree

header = {
  'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:60.0) Gecko/20100101 Firefox/60.0',
  'Host':'soccer.hupu.com',
  'Referer':'https://soccer.hupu.com/'}
i = 0
while 1:
  #构建循环页面翻页
  url = 'https://soccer.hupu.com/home/latest-news?league=世界杯&page='
  i += 1
  #获取json数据,一页20个
  html = requests.get(url+str(i),headers=header).json()['result']
  for info in html:
    time_r = info['time']#发布时间
    title = info['title']#标题
    url_r = info['url']#新闻链接
    origin = info['origin']#来源
    print(title)
    print('发布时间:',time_r,' '*5,'来自:',origin)
    head = header
    head['Host'] = 'voice.hupu.com'#更改header中Host参数
    html_r = requests.get(url_r,headers=head)#获取新闻详情
    html_r.encoding = 'utf-8'#编码格式指定
    #获取div下的所有文本
    datas = etree.HTML(html_r.text).xpath('//div[@class="artical-content-read"]')[0].xpath('string(.)').strip()
    print('\n'+'内容:'+'\n'*2,datas,'\n')
    #可由用户手动退出循环
    if input('任意键继续,“q”退出') in ['q', 'Q']:
      exit()

总结

以上所述是小编给大家介绍的Python爬虫实现(伪)球迷速成,希望对大家有所帮助,如果大家有任何疑问欢迎给我留言,小编会及时回复大家的!

Python 相关文章推荐
wxpython学习笔记(推荐查看)
Jun 09 Python
Python中标准库OS的常用方法总结大全
Jul 19 Python
Python 多进程和数据传递的理解
Oct 09 Python
教你用Python创建微信聊天机器人
Mar 31 Python
Python去除、替换字符串空格的处理方法
Apr 01 Python
解决pip install的时候报错timed out的问题
Jun 12 Python
Python的matplotlib绘图如何修改背景颜色的实现
Jul 16 Python
浅谈Django中view对数据库的调用方法
Jul 18 Python
Django使用模板后无法找到静态资源文件问题解决
Jul 19 Python
深入了解Python 方法之类方法 &amp; 静态方法
Aug 17 Python
Django mysqlclient安装和使用详解
Sep 17 Python
python 中yaml文件用法大全
Jul 04 Python
python利用微信公众号实现报警功能
Jun 10 #Python
Python if语句知识点用法总结
Jun 10 #Python
Python continue继续循环用法总结
Jun 10 #Python
Python求解任意闭区间的所有素数
Jun 10 #Python
Python学习小技巧总结
Jun 10 #Python
python计算两个地址之间的距离方法
Jun 09 #Python
python 对dataframe下面的值进行大规模赋值方法
Jun 09 #Python
You might like
咖啡磨器 如何选购一台适合家用的意式磨豆机
2021/03/05 新手入门
windows xp下安装pear
2006/12/02 PHP
IIS6+PHP5+MySQL5+Zend Optimizer+phpMyAdmin安装配置图文教程 2009年
2009/06/08 PHP
关于php mvc开发模式的感想
2011/06/28 PHP
使用PHP求两个文件的相对路径
2013/06/20 PHP
php微信公众号开发之音乐信息
2018/10/20 PHP
PHP如何通过带尾指针的链表实现'队列'
2020/10/22 PHP
jquery 鼠标滑动显示详情应用示例
2014/01/24 Javascript
JavaScript操作HTML DOM节点的基础教程
2016/03/11 Javascript
node.js插件nodeclipse安装图文教程
2020/10/19 Javascript
JavaScript 字符串常用操作小结(非常实用)
2016/11/30 Javascript
JS跳转手机站url的若干注意事项
2017/10/18 Javascript
node.js使用express框架进行文件上传详解
2019/03/03 Javascript
vue3 源码解读之 time slicing的使用方法
2019/10/31 Javascript
微信小程序利用云函数获取手机号码
2019/12/17 Javascript
如何HttpServletRequest文件对象并储存
2020/08/14 Javascript
javascript实现点击小图显示大图
2020/11/29 Javascript
[45:25]完美世界DOTA2联赛循环赛 PXG vs IO 第一场 11.06
2020/11/09 DOTA
Python实现查找系统盘中需要找的字符
2015/07/14 Python
numpy排序与集合运算用法示例
2017/12/15 Python
selenium使用chrome浏览器测试(附chromedriver与chrome的对应关系表)
2018/11/29 Python
浅谈keras中loss与val_loss的关系
2020/06/22 Python
HTML5引入的新数组TypedArray介绍
2012/12/24 HTML / CSS
Ray-Ban雷朋美国官网:全球领先的太阳眼镜品牌
2016/07/20 全球购物
美国的Eastbay旗下的运动款子品牌:Final-Score
2018/01/01 全球购物
存储过程的优缺点是什么
2015/01/10 面试题
同学聚会主持词
2014/03/18 职场文书
《九寨沟》教学反思
2014/04/08 职场文书
护士实习求职信
2014/06/22 职场文书
生活部的活动方案
2014/08/19 职场文书
2014年四风问题自我剖析材料
2014/09/15 职场文书
咖啡店创业计划书范文
2014/09/15 职场文书
法院四风对照检查材料思想汇报
2014/10/06 职场文书
教师批评与自我批评剖析材料
2014/10/16 职场文书
2014年服务行业工作总结
2014/11/18 职场文书
班主任班级管理心得体会
2016/01/07 职场文书