python获取百度热榜链接的实例方法


Posted in Python onAugust 25, 2020

目标网址:

https://www.baidu.com/

要获取的内容:

python获取百度热榜链接的实例方法

链接分析:

从下图可以看出只需要获取关键字,再构建就可以了。

python获取百度热榜链接的实例方法

完整代码:

import requests
import pprint
import re
import urllib.parse

url = 'https://www.baidu.com/'

headers = {
    'Host': 'www.baidu.com',
    'Referer': 'https://www.baidu.com/',
    'User-Agent': 你的User-Agent,
    'Cookie': 你的Cookie
}

response = requests.get(url, headers=headers).content.decode('utf-8')
# 获取关键字
pat = '"pure_title": "(.*?)"'
keyword = re.findall(pat, response, re.S)
print(len(keyword))

for hot_word in keyword:
    # 汉字不符合url标准,所以这里需要进行url编码
    i = urllib.parse.quote(hot_word, encoding='utf-8', errors='replace')
    # url构建
    link = f'https://www.baidu.com/s?cl=3&tn=baidutop10&fr=top1000&wd={i}&rsv_idx=2&rsv_dl=fyb_n_homepage&hisfilter=1'
    print(link)

你会发现结果很长:

python获取百度热榜链接的实例方法

但其实关键字后面的几个参数是可以去掉的,这样url就没有那么长了。

python获取百度热榜链接的实例方法

内容扩展:

python 爬取简单的百度搜索结果

爬取百度搜索结果

主要还要借助xpath helper谷歌浏览器的插件来操作更容易找到需要查找信息的xpath位置

还要首先了解一下百度搜索请求的参数 lm默认为0,天数限制,但是好像只有1有用。

默认每页10条信息,rn

pn是页码

from lxml import etree
import re
import requests
import string
import json
headers = {
  "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36"
}
response = requests.get('https://www.baidu.com/s?wd=腾讯视频优惠&lm=1',headers=headers)
r = response.text
html = etree.HTML(r,etree.HTMLParser())
r1 = html.xpath('//h3')
r2 = html.xpath('//*[@class="c-abstract"]')
r3 = html.xpath('//a[@class="c-showurl"]')
for i in range(10) :
  r11 = r1[i].xpath('string(.)')
  r22 = r2[i].xpath('string(.)')
  r33 = r3[i].xpath('string(.)')
  # with open('test.txt', 'a', encoding='utf-8') as f:
  #   f.write(json.dumps(r11,ensure_ascii=False) + '\n')
  #   f.write(json.dumps(r22, ensure_ascii=False) + '\n')
  #   f.write(json.dumps(r33, ensure_ascii=False) + '\n')
  print(r11,end='\n')
  print(r22,end='\n')
  print(r33)
  print()

到此这篇关于python获取百度热榜链接的实例方法的文章就介绍到这了,更多相关教你用python获取百度热榜链接内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python中unittest用法实例
Sep 25 Python
Python使用cx_Oracle模块将oracle中数据导出到csv文件的方法
May 16 Python
Python实现Mysql数据库连接池实例详解
Apr 11 Python
Python排序搜索基本算法之插入排序实例分析
Dec 11 Python
python+matplotlib绘制饼图散点图实例代码
Jan 20 Python
python 2.7.14安装图文教程
Apr 08 Python
对python读写文件去重、RE、set的使用详解
Dec 11 Python
简单了解python的内存管理机制
Jul 08 Python
python flask web服务实现更换默认端口和IP的方法
Jul 26 Python
PYQT5开启多个线程和窗口,多线程与多窗口的交互实例
Dec 13 Python
python装饰器代替set get方法实例
Dec 19 Python
python 使用while循环输出*组成的菱形实例
Apr 12 Python
利用Python如何制作贪吃蛇及AI版贪吃蛇详解
Aug 24 #Python
python实现自动清理重复文件
Aug 24 #Python
anaconda3安装及jupyter环境配置全教程
Aug 24 #Python
Python+pyftpdlib实现局域网文件互传
Aug 24 #Python
实例代码讲解Python 线程池
Aug 24 #Python
详解python UDP 编程
Aug 24 #Python
PyTorch如何搭建一个简单的网络
Aug 24 #Python
You might like
不错的PHP学习之php4与php5之间会穿梭一点点感悟
2007/05/03 PHP
ThinkPHP关联模型操作实例分析
2012/09/23 PHP
PHP导出EXCEL快速开发指南--PHPEXCEL的使用详解
2013/06/03 PHP
Laravel模板引擎Blade中section的一些标签的区别介绍
2015/02/10 PHP
php获取网站百度快照日期的方法
2015/07/29 PHP
php生成静态html页面的方法(2种方法)
2015/09/14 PHP
Thinkphp3.2.3整合phpqrcode生成带logo的二维码
2016/07/21 PHP
Yii2实现增删改查后留在当前页的方法详解
2017/01/13 PHP
jquery JSON的解析方式
2009/07/25 Javascript
一些相见恨晚的 JavaScript 技巧
2010/04/25 Javascript
JavaScript通过元素的ID和name设置样式
2014/07/08 Javascript
通过jquery 获取URL参数并进行转码
2014/08/18 Javascript
JavaScript设计模式之工厂模式和构造器模式
2015/02/11 Javascript
jQuery购物车插件jsorder用法(支持后台处理程序直接转换成DataTable处理)
2016/06/08 Javascript
基于JavaScript表单脚本(详解)
2017/10/18 Javascript
ES6 javascript中Class类继承用法实例详解
2017/10/30 Javascript
基于webpack4搭建的react项目框架的方法
2018/06/30 Javascript
python计算最大优先级队列实例
2013/12/18 Python
Python实现把json格式转换成文本或sql文件
2015/07/10 Python
搭建Python的Django框架环境并建立和运行第一个App的教程
2016/07/02 Python
儿童学习python的一些小技巧
2018/05/27 Python
使用python进行文本预处理和提取特征的实例
2018/06/05 Python
python3 实现的对象与json相互转换操作示例
2019/08/17 Python
浅谈PyTorch的可重复性问题(如何使实验结果可复现)
2020/02/20 Python
加拿大女装网上购物:Reitmans
2016/10/20 全球购物
美国婚戒购物网站:Anjays Designs
2017/06/28 全球购物
adidas澳大利亚官方网站:adidas Australia
2018/04/15 全球购物
高级3D打印市场:Gambody
2019/12/26 全球购物
校领导推荐信
2013/11/01 职场文书
新闻编辑专业毕业自荐书范文
2014/02/05 职场文书
小松树教学反思
2014/02/11 职场文书
最新优秀教师个人先进事迹材料
2014/05/06 职场文书
实验心得体会
2014/09/05 职场文书
地道战观后感300字
2015/06/04 职场文书
医务人员医德医风心得体会
2016/01/25 职场文书
python必学知识之文件操作(建议收藏)
2021/05/30 Python