python获取百度热榜链接的实例方法


Posted in Python onAugust 25, 2020

目标网址:

https://www.baidu.com/

要获取的内容:

python获取百度热榜链接的实例方法

链接分析:

从下图可以看出只需要获取关键字,再构建就可以了。

python获取百度热榜链接的实例方法

完整代码:

import requests
import pprint
import re
import urllib.parse

url = 'https://www.baidu.com/'

headers = {
    'Host': 'www.baidu.com',
    'Referer': 'https://www.baidu.com/',
    'User-Agent': 你的User-Agent,
    'Cookie': 你的Cookie
}

response = requests.get(url, headers=headers).content.decode('utf-8')
# 获取关键字
pat = '"pure_title": "(.*?)"'
keyword = re.findall(pat, response, re.S)
print(len(keyword))

for hot_word in keyword:
    # 汉字不符合url标准,所以这里需要进行url编码
    i = urllib.parse.quote(hot_word, encoding='utf-8', errors='replace')
    # url构建
    link = f'https://www.baidu.com/s?cl=3&tn=baidutop10&fr=top1000&wd={i}&rsv_idx=2&rsv_dl=fyb_n_homepage&hisfilter=1'
    print(link)

你会发现结果很长:

python获取百度热榜链接的实例方法

但其实关键字后面的几个参数是可以去掉的,这样url就没有那么长了。

python获取百度热榜链接的实例方法

内容扩展:

python 爬取简单的百度搜索结果

爬取百度搜索结果

主要还要借助xpath helper谷歌浏览器的插件来操作更容易找到需要查找信息的xpath位置

还要首先了解一下百度搜索请求的参数 lm默认为0,天数限制,但是好像只有1有用。

默认每页10条信息,rn

pn是页码

from lxml import etree
import re
import requests
import string
import json
headers = {
  "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36"
}
response = requests.get('https://www.baidu.com/s?wd=腾讯视频优惠&lm=1',headers=headers)
r = response.text
html = etree.HTML(r,etree.HTMLParser())
r1 = html.xpath('//h3')
r2 = html.xpath('//*[@class="c-abstract"]')
r3 = html.xpath('//a[@class="c-showurl"]')
for i in range(10) :
  r11 = r1[i].xpath('string(.)')
  r22 = r2[i].xpath('string(.)')
  r33 = r3[i].xpath('string(.)')
  # with open('test.txt', 'a', encoding='utf-8') as f:
  #   f.write(json.dumps(r11,ensure_ascii=False) + '\n')
  #   f.write(json.dumps(r22, ensure_ascii=False) + '\n')
  #   f.write(json.dumps(r33, ensure_ascii=False) + '\n')
  print(r11,end='\n')
  print(r22,end='\n')
  print(r33)
  print()

到此这篇关于python获取百度热榜链接的实例方法的文章就介绍到这了,更多相关教你用python获取百度热榜链接内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python实现的防DDoS脚本
Feb 08 Python
python sys模块sys.path使用方法示例
Dec 04 Python
python判断给定的字符串是否是有效日期的方法
May 13 Python
python中numpy.zeros(np.zeros)的使用方法
Nov 07 Python
Django项目中用JS实现加载子页面并传值的方法
May 28 Python
Python关于excel和shp的使用在matplotlib
Jan 03 Python
python树莓派红外反射传感器
Jan 21 Python
Python实现E-Mail收集插件实例教程
Feb 06 Python
python 同时读取多个文件的例子
Jul 16 Python
python基于K-means聚类算法的图像分割
Oct 30 Python
python GUI库图形界面开发之PyQt5 MDI(多文档窗口)QMidArea详细使用方法与实例
Mar 05 Python
python实现简单贪吃蛇游戏
Sep 29 Python
利用Python如何制作贪吃蛇及AI版贪吃蛇详解
Aug 24 #Python
python实现自动清理重复文件
Aug 24 #Python
anaconda3安装及jupyter环境配置全教程
Aug 24 #Python
Python+pyftpdlib实现局域网文件互传
Aug 24 #Python
实例代码讲解Python 线程池
Aug 24 #Python
详解python UDP 编程
Aug 24 #Python
PyTorch如何搭建一个简单的网络
Aug 24 #Python
You might like
用PHP实现文件上传二法
2006/10/09 PHP
LotusPhp笔记之:Cookie组件的使用详解
2013/05/06 PHP
yiic命令时提示“php.exe”不是内部或外部命令的解决方法
2014/12/18 PHP
PHP实现笛卡尔积算法的实例讲解
2019/12/22 PHP
PHP实现常用排序算法的方法
2020/02/05 PHP
JScript中的undefined和"undefined"的区别
2007/03/08 Javascript
jQuery 打造动态渐变按钮 详细图文教程
2010/04/25 Javascript
JavaScript中数组的排序、乱序和搜索实现代码
2011/11/30 Javascript
有关于JS辅助函数inherit()的问题
2013/04/07 Javascript
javascript获取隐藏dom的宽高 具体实现
2013/07/14 Javascript
JavaScript实现同步于本地时间的动态时间显示方法
2015/02/02 Javascript
jQuery插件开发的五种形态小结
2015/03/04 Javascript
jQuery实现鼠标划过展示大图的方法
2015/03/09 Javascript
JQuery中层次选择器用法实例详解
2015/05/18 Javascript
基于jQuery和CSS3制作响应式水平时间轴附源码下载
2015/12/20 Javascript
jQuery+css实现的时钟效果(兼容各浏览器)
2016/01/27 Javascript
Bootstrap源码学习笔记之bootstrap进度条
2016/12/24 Javascript
JS闭包用法实例分析
2017/03/27 Javascript
JavaScript实现打地鼠小游戏
2020/04/23 Javascript
bootstrap精简教程_动力节点Java学院整理
2017/07/14 Javascript
vue axios 二次封装的示例代码
2017/12/08 Javascript
基于element-ui组件手动实现单选和上传功能
2018/12/06 Javascript
[00:34]DOTA2上海特级锦标赛 VG战队宣传片
2016/03/04 DOTA
在Python 2.7即将停止支持时,我们为你带来了一份python 3.x迁移指南
2018/01/30 Python
Python对象与引用的介绍
2019/01/24 Python
python爬虫之爬取百度音乐的实现方法
2019/08/24 Python
python 识别登录验证码图片功能的实现代码(完整代码)
2020/07/03 Python
python如何快速拼接字符串
2020/10/28 Python
使用Python封装excel操作指南
2021/01/29 Python
华润集团网上药店:健一网
2016/09/19 全球购物
Pureology官网:为染色头发打造最好的产品
2019/09/13 全球购物
董事长岗位职责
2013/11/30 职场文书
语文教学随笔感言
2014/02/18 职场文书
教育实践活动对照检查材料
2014/09/23 职场文书
小学大队委竞选口号
2015/12/25 职场文书
Redis入门基础常用操作命令整理
2022/06/01 Redis