python获取百度热榜链接的实例方法


Posted in Python onAugust 25, 2020

目标网址:

https://www.baidu.com/

要获取的内容:

python获取百度热榜链接的实例方法

链接分析:

从下图可以看出只需要获取关键字,再构建就可以了。

python获取百度热榜链接的实例方法

完整代码:

import requests
import pprint
import re
import urllib.parse

url = 'https://www.baidu.com/'

headers = {
    'Host': 'www.baidu.com',
    'Referer': 'https://www.baidu.com/',
    'User-Agent': 你的User-Agent,
    'Cookie': 你的Cookie
}

response = requests.get(url, headers=headers).content.decode('utf-8')
# 获取关键字
pat = '"pure_title": "(.*?)"'
keyword = re.findall(pat, response, re.S)
print(len(keyword))

for hot_word in keyword:
    # 汉字不符合url标准,所以这里需要进行url编码
    i = urllib.parse.quote(hot_word, encoding='utf-8', errors='replace')
    # url构建
    link = f'https://www.baidu.com/s?cl=3&tn=baidutop10&fr=top1000&wd={i}&rsv_idx=2&rsv_dl=fyb_n_homepage&hisfilter=1'
    print(link)

你会发现结果很长:

python获取百度热榜链接的实例方法

但其实关键字后面的几个参数是可以去掉的,这样url就没有那么长了。

python获取百度热榜链接的实例方法

内容扩展:

python 爬取简单的百度搜索结果

爬取百度搜索结果

主要还要借助xpath helper谷歌浏览器的插件来操作更容易找到需要查找信息的xpath位置

还要首先了解一下百度搜索请求的参数 lm默认为0,天数限制,但是好像只有1有用。

默认每页10条信息,rn

pn是页码

from lxml import etree
import re
import requests
import string
import json
headers = {
  "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36"
}
response = requests.get('https://www.baidu.com/s?wd=腾讯视频优惠&lm=1',headers=headers)
r = response.text
html = etree.HTML(r,etree.HTMLParser())
r1 = html.xpath('//h3')
r2 = html.xpath('//*[@class="c-abstract"]')
r3 = html.xpath('//a[@class="c-showurl"]')
for i in range(10) :
  r11 = r1[i].xpath('string(.)')
  r22 = r2[i].xpath('string(.)')
  r33 = r3[i].xpath('string(.)')
  # with open('test.txt', 'a', encoding='utf-8') as f:
  #   f.write(json.dumps(r11,ensure_ascii=False) + '\n')
  #   f.write(json.dumps(r22, ensure_ascii=False) + '\n')
  #   f.write(json.dumps(r33, ensure_ascii=False) + '\n')
  print(r11,end='\n')
  print(r22,end='\n')
  print(r33)
  print()

到此这篇关于python获取百度热榜链接的实例方法的文章就介绍到这了,更多相关教你用python获取百度热榜链接内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python 用户登录验证的小例子
Mar 06 Python
Python3实现爬取指定百度贴吧页面并保存页面数据生成本地文档的方法
Apr 22 Python
python实现自动发送报警监控邮件
Jun 21 Python
python实现一个简单的udp通信的示例代码
Feb 01 Python
python买卖股票的最佳时机(基于贪心/蛮力算法)
Jul 05 Python
python opencv捕获摄像头并显示内容的实现
Jul 11 Python
Python下利用BeautifulSoup解析HTML的实现
Jan 17 Python
python 实现分组求和与分组累加求和代码
May 18 Python
Python函数参数定义及传递方式解析
Jun 10 Python
使用ITK-SNAP进行抠图操作并保存mask的实例
Jul 01 Python
利用keras使用神经网络预测销量操作
Jul 07 Python
Django xadmin安装及使用详解
Oct 26 Python
利用Python如何制作贪吃蛇及AI版贪吃蛇详解
Aug 24 #Python
python实现自动清理重复文件
Aug 24 #Python
anaconda3安装及jupyter环境配置全教程
Aug 24 #Python
Python+pyftpdlib实现局域网文件互传
Aug 24 #Python
实例代码讲解Python 线程池
Aug 24 #Python
详解python UDP 编程
Aug 24 #Python
PyTorch如何搭建一个简单的网络
Aug 24 #Python
You might like
逆序二维数组插入一元素的php代码
2012/06/08 PHP
如何在PHP中使用正则表达式进行查找替换
2013/06/13 PHP
php数组函数array_key_exists()小结
2015/12/10 PHP
Zend Framework教程之Resource Autoloading用法实例
2016/03/08 PHP
JS实现简单的Canvas画图实例
2013/07/04 Javascript
jQuery实现鼠标滑过遮罩并高亮显示效果
2013/07/16 Javascript
AngularJS实现按钮提示与点击变色效果
2016/09/07 Javascript
微信小程序 开发之滑块视图容器(swiper)详解及实例代码
2017/02/22 Javascript
详解vuejs几种不同组件(页面)间传值的方式
2017/06/01 Javascript
解决vue中修改export default中脚本报一大堆错的问题
2018/08/27 Javascript
vue制作抓娃娃机的示例代码
2020/04/17 Javascript
vue 使用post/get 下载导出文件操作
2020/08/07 Javascript
python基础教程之自定义函数介绍
2014/08/29 Python
Python中的字符串替换操作示例
2016/06/27 Python
分享Python开发中要注意的十个小贴士
2016/08/30 Python
python 去除txt文本中的空格、数字、特定字母等方法
2018/07/24 Python
关于python下cv.waitKey无响应的原因及解决方法
2019/01/10 Python
Opencv求取连通区域重心实例
2020/06/04 Python
基于tf.shape(tensor)和tensor.shape()的区别说明
2020/06/30 Python
python opencv实现图像配准与比较
2021/02/09 Python
爱尔兰家电数码商城:Currys PC World爱尔兰
2016/07/23 全球购物
法国一家多品牌成衣精品中/高档商店:Graduate Store
2019/08/28 全球购物
英语硕士生求职简历的自我评价
2013/10/15 职场文书
2013届毕业生求职信范文
2013/11/20 职场文书
电脑专业个人求职信范文
2014/02/04 职场文书
公司会计岗位职责
2014/02/13 职场文书
幼儿园六一儿童节活动方案
2014/08/26 职场文书
小学生国庆节演讲稿
2014/09/05 职场文书
2014领导班子四风问题查摆思想汇报
2014/09/13 职场文书
三提三创主题教育活动查摆整改措施
2014/10/25 职场文书
自查自纠工作情况报告
2014/10/29 职场文书
2015婚礼主持词开场白
2015/05/28 职场文书
致运动员赞词
2015/07/22 职场文书
2016年10月份红领巾广播稿
2015/12/21 职场文书
一次SQL如何查重及去重的实战记录
2022/03/13 MySQL
WCG2010 星际争霸决赛 Flash vs Goojila 1 星际经典比赛回顾
2022/04/01 星际争霸