Python爬虫实现(伪)球迷速成


Posted in Python onJune 10, 2018

Python爬虫实现(伪)球迷速成

还有4天就世界杯了,作为一个资深(伪)球迷,必须要实时关注世界杯相关新闻,了解各个球队动态,这样才能在一堆球迷中如(大)鱼(吹)得(特)水(吹),迎接大家仰慕的目光!

给大家分享一个快速了解相关信息的办法:刷论坛!我们来一起做个虎扑论坛的爬虫吧!

抓包获取虎扑论坛相关帖子内容,逐条显示!

先来观察下网页,打开论坛首页,选择国际足球

Python爬虫实现(伪)球迷速成

然后往下拉,找到世界杯相关内容

Python爬虫实现(伪)球迷速成 

这里就是我们的目标了,所有相关的新闻都会在这里显示,用F12打开“开发者工具”然后往下浏览看看数据包

Python爬虫实现(伪)球迷速成

注意箭头指向的那几个地方!

这就是刚才浏览的新闻所在的json包,来看看具体数据是什么

Python爬虫实现(伪)球迷速成

ok,标题、地址、发布时间包括来源都已经出现了!我们可以直接抓取json数据然后取出相关内容!

再进入具体新闻页面看看

世界杯快到了,看我用Python爬虫实现(伪)球迷速成! 

所有的文本内容,都在<div class="artical-main-content">这个标签下的<p></p>标签内,我们可以用xpath直接取div下的所有文本内容!

这里就不一 一说明了,直接上代码,并录个小的GIF图片给大家看看效果

#Q群542110741
# -*- coding:utf-8 -*-
import requests
from lxml import etree

header = {
  'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:60.0) Gecko/20100101 Firefox/60.0',
  'Host':'soccer.hupu.com',
  'Referer':'https://soccer.hupu.com/'}
i = 0
while 1:
  #构建循环页面翻页
  url = 'https://soccer.hupu.com/home/latest-news?league=世界杯&page='
  i += 1
  #获取json数据,一页20个
  html = requests.get(url+str(i),headers=header).json()['result']
  for info in html:
    time_r = info['time']#发布时间
    title = info['title']#标题
    url_r = info['url']#新闻链接
    origin = info['origin']#来源
    print(title)
    print('发布时间:',time_r,' '*5,'来自:',origin)
    head = header
    head['Host'] = 'voice.hupu.com'#更改header中Host参数
    html_r = requests.get(url_r,headers=head)#获取新闻详情
    html_r.encoding = 'utf-8'#编码格式指定
    #获取div下的所有文本
    datas = etree.HTML(html_r.text).xpath('//div[@class="artical-content-read"]')[0].xpath('string(.)').strip()
    print('\n'+'内容:'+'\n'*2,datas,'\n')
    #可由用户手动退出循环
    if input('任意键继续,“q”退出') in ['q', 'Q']:
      exit()

总结

以上所述是小编给大家介绍的Python爬虫实现(伪)球迷速成,希望对大家有所帮助,如果大家有任何疑问欢迎给我留言,小编会及时回复大家的!

Python 相关文章推荐
测试、预发布后用python检测网页是否有日常链接
Jun 03 Python
python通过自定义isnumber函数判断字符串是否为数字的方法
Apr 23 Python
python中将函数赋值给变量时需要注意的一些问题
Aug 18 Python
分析python切片原理和方法
Dec 19 Python
django2 快速安装指南分享
Jan 05 Python
Python操作Oracle数据库的简单方法和封装类实例
May 07 Python
Linux下Pycharm、Anaconda环境配置及使用踩坑
Dec 19 Python
ubuntu 18.04搭建python环境(pycharm+anaconda)
Jun 14 Python
python django生成迁移文件的实例
Aug 31 Python
Python3如何对urllib和urllib2进行重构
Nov 25 Python
pandas实现excel中的数据透视表和Vlookup函数功能代码
Feb 14 Python
Python基于Socket实现简单聊天室
Feb 17 Python
python利用微信公众号实现报警功能
Jun 10 #Python
Python if语句知识点用法总结
Jun 10 #Python
Python continue继续循环用法总结
Jun 10 #Python
Python求解任意闭区间的所有素数
Jun 10 #Python
Python学习小技巧总结
Jun 10 #Python
python计算两个地址之间的距离方法
Jun 09 #Python
python 对dataframe下面的值进行大规模赋值方法
Jun 09 #Python
You might like
用Flash图形化数据(二)
2006/10/09 PHP
采用thinkphp自带方法生成静态html文件详解
2014/06/13 PHP
老版本PHP转义Json里的特殊字符的函数
2015/06/08 PHP
简单谈谈 php 文件锁
2017/02/19 PHP
PHP中让json_encode不自动转义斜杠“/”的方法
2017/02/28 PHP
PHP cookie与session会话基本用法实例分析
2019/11/18 PHP
A标签触发onclick事件而不跳转的多种解决方法
2013/06/27 Javascript
javascript闭包传参和事件的循环绑定示例探讨
2014/04/17 Javascript
JS实用的动画弹出层效果实例
2015/05/05 Javascript
jQuery对html元素的取值与赋值实例详解
2015/12/18 Javascript
JavaScript 数组- Array的方法总结(推荐)
2016/07/21 Javascript
jQuery使用siblings获取某元素所有同辈(兄弟姐妹)元素用法示例
2017/01/30 Javascript
JS图片延迟加载插件LazyImgv1.0用法分析【附demo源码下载】
2017/09/04 Javascript
angularjs利用directive实现移动端自定义软键盘的示例
2017/09/20 Javascript
Angular4实现图片上传预览路径不安全的问题解决
2017/12/25 Javascript
原生JS实现网页手机音乐播放器 歌词同步播放的示例
2018/02/02 Javascript
jQuery实现模拟搜索引擎的智能提示功能简单示例
2019/01/27 jQuery
详解vue中使用vue-quill-editor富文本小结(图片上传)
2019/04/24 Javascript
el-select 下拉框多选实现全选的实现
2019/08/02 Javascript
前端使用crypto.js进行加密的函数代码
2020/08/16 Javascript
Python数据结构与算法之链表定义与用法实例详解【单链表、循环链表】
2017/09/28 Python
Python编程之Re模块下的函数介绍
2017/10/28 Python
Python中字典的浅拷贝与深拷贝用法实例分析
2018/01/02 Python
Python中多个数组行合并及列合并的方法总结
2018/04/12 Python
Python读取数据集并消除数据中的空行方法
2018/07/12 Python
Python根据欧拉角求旋转矩阵的实例
2019/01/28 Python
python 比较2张图片的相似度的方法示例
2019/12/18 Python
用openCV和Python 实现图片对比,并标识出不同点的方式
2019/12/19 Python
Python调用Windows命令打印文件
2020/02/07 Python
解决django FileFIELD的编码问题
2020/03/30 Python
Python3实现个位数字和十位数字对调, 其乘积不变
2020/05/03 Python
关于python tushare Tkinter构建的简单股票可视化查询系统(Beta v0.13)
2020/10/19 Python
html5+css3之动画在webapp中的应用
2014/11/21 HTML / CSS
英国高街奥特莱斯:Highstreet Outlet
2019/11/21 全球购物
德国婴儿服装和婴儿用品购买网站:Baby Sweets
2019/12/08 全球购物
销售顾问的岗位职责
2013/11/13 职场文书