python获取百度热榜链接的实例方法


Posted in Python onAugust 25, 2020

目标网址:

https://www.baidu.com/

要获取的内容:

python获取百度热榜链接的实例方法

链接分析:

从下图可以看出只需要获取关键字,再构建就可以了。

python获取百度热榜链接的实例方法

完整代码:

import requests
import pprint
import re
import urllib.parse

url = 'https://www.baidu.com/'

headers = {
    'Host': 'www.baidu.com',
    'Referer': 'https://www.baidu.com/',
    'User-Agent': 你的User-Agent,
    'Cookie': 你的Cookie
}

response = requests.get(url, headers=headers).content.decode('utf-8')
# 获取关键字
pat = '"pure_title": "(.*?)"'
keyword = re.findall(pat, response, re.S)
print(len(keyword))

for hot_word in keyword:
    # 汉字不符合url标准,所以这里需要进行url编码
    i = urllib.parse.quote(hot_word, encoding='utf-8', errors='replace')
    # url构建
    link = f'https://www.baidu.com/s?cl=3&tn=baidutop10&fr=top1000&wd={i}&rsv_idx=2&rsv_dl=fyb_n_homepage&hisfilter=1'
    print(link)

你会发现结果很长:

python获取百度热榜链接的实例方法

但其实关键字后面的几个参数是可以去掉的,这样url就没有那么长了。

python获取百度热榜链接的实例方法

内容扩展:

python 爬取简单的百度搜索结果

爬取百度搜索结果

主要还要借助xpath helper谷歌浏览器的插件来操作更容易找到需要查找信息的xpath位置

还要首先了解一下百度搜索请求的参数 lm默认为0,天数限制,但是好像只有1有用。

默认每页10条信息,rn

pn是页码

from lxml import etree
import re
import requests
import string
import json
headers = {
  "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36"
}
response = requests.get('https://www.baidu.com/s?wd=腾讯视频优惠&lm=1',headers=headers)
r = response.text
html = etree.HTML(r,etree.HTMLParser())
r1 = html.xpath('//h3')
r2 = html.xpath('//*[@class="c-abstract"]')
r3 = html.xpath('//a[@class="c-showurl"]')
for i in range(10) :
  r11 = r1[i].xpath('string(.)')
  r22 = r2[i].xpath('string(.)')
  r33 = r3[i].xpath('string(.)')
  # with open('test.txt', 'a', encoding='utf-8') as f:
  #   f.write(json.dumps(r11,ensure_ascii=False) + '\n')
  #   f.write(json.dumps(r22, ensure_ascii=False) + '\n')
  #   f.write(json.dumps(r33, ensure_ascii=False) + '\n')
  print(r11,end='\n')
  print(r22,end='\n')
  print(r33)
  print()

到此这篇关于python获取百度热榜链接的实例方法的文章就介绍到这了,更多相关教你用python获取百度热榜链接内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
PYTHON正则表达式 re模块使用说明
May 19 Python
python中将字典形式的数据循环插入Excel
Jan 16 Python
Python解析命令行读取参数--argparse模块使用方法
Jan 23 Python
python3爬取各类天气信息
Feb 24 Python
Python爬虫实现简单的爬取有道翻译功能示例
Jul 13 Python
python中metaclass原理与用法详解
Jun 25 Python
python list转置和前后反转的例子
Aug 26 Python
tensorflow之tf.record实现存浮点数数组
Feb 17 Python
python实现Oracle查询分组的方法示例
Apr 30 Python
python如何代码集体右移
Jul 20 Python
Python中glob库实现文件名的匹配
Jun 18 Python
详解Python中__new__方法的作用
Mar 31 Python
利用Python如何制作贪吃蛇及AI版贪吃蛇详解
Aug 24 #Python
python实现自动清理重复文件
Aug 24 #Python
anaconda3安装及jupyter环境配置全教程
Aug 24 #Python
Python+pyftpdlib实现局域网文件互传
Aug 24 #Python
实例代码讲解Python 线程池
Aug 24 #Python
详解python UDP 编程
Aug 24 #Python
PyTorch如何搭建一个简单的网络
Aug 24 #Python
You might like
php输出表格的实现代码(修正版)
2010/12/29 PHP
php strrpos()与strripos()函数
2013/08/31 PHP
PHP版单点登陆实现方案的实例
2016/11/17 PHP
详解JavaScript函数绑定
2013/08/18 Javascript
jquery实现多级下拉菜单的实例代码
2013/10/02 Javascript
JavaScript将Web页面内容导出到Word及Excel的方法
2015/02/13 Javascript
JavaScript获取网页中第一个图片id的方法
2015/04/03 Javascript
EasyUI Combobox设置默认值 获取text的方法
2016/11/28 Javascript
AngularJS constant和value区别详解
2017/02/28 Javascript
基于JavaScript实现的顺序查找算法示例
2017/04/14 Javascript
jQuery实现web页面樱花坠落的特效
2017/06/01 jQuery
Vue代码分割懒加载的实现方法
2017/11/23 Javascript
Vue的实例、生命周期与Vue脚手架(vue-cli)实例详解
2017/12/27 Javascript
JS扩展String.prototype.format字符串拼接的功能
2018/03/09 Javascript
微信小程序实现通过双向滑动缩放图片大小的方法
2018/12/30 Javascript
用 js 写一个 js 解释器过程详解
2019/08/02 Javascript
vscode中eslint插件的配置(prettier配置无效)
2019/09/10 Javascript
python实现socket端口重定向示例
2014/02/10 Python
Linux下使用python自动修改本机网关代码分享
2015/05/21 Python
无法使用pip命令安装python第三方库的原因及解决方法
2018/06/12 Python
Python输出\u编码将其转换成中文的实例
2018/12/15 Python
基于python计算滚动方差(标准差)talib和pd.rolling函数差异详解
2020/06/08 Python
完美解决keras保存好的model不能成功加载问题
2020/06/11 Python
python属于哪种语言
2020/08/16 Python
matplotlib常见函数之plt.rcParams、matshow的使用(坐标轴设置)
2021/01/05 Python
美国高品质个性化珠宝销售网站:Jewlr
2018/05/03 全球购物
澳大利亚领先的折扣药房:Chemist Direct(有中文站)
2018/11/24 全球购物
MIKI HOUSE美国官方网上商店:日本领先的婴儿和儿童高级时装品牌
2020/06/21 全球购物
九年级体育教学反思
2014/01/23 职场文书
在校大学生自我评价范文
2014/09/12 职场文书
九寨沟导游词
2015/02/02 职场文书
工作会议通知
2015/04/15 职场文书
小学教师个人工作总结2015
2015/04/20 职场文书
2019企业给员工的慰问信
2019/06/24 职场文书
加薪申请书应该这样写!
2019/07/04 职场文书
python-for x in range的用法(注意要点、细节)
2021/05/10 Python