python获取百度热榜链接的实例方法


Posted in Python onAugust 25, 2020

目标网址:

https://www.baidu.com/

要获取的内容:

python获取百度热榜链接的实例方法

链接分析:

从下图可以看出只需要获取关键字,再构建就可以了。

python获取百度热榜链接的实例方法

完整代码:

import requests
import pprint
import re
import urllib.parse

url = 'https://www.baidu.com/'

headers = {
    'Host': 'www.baidu.com',
    'Referer': 'https://www.baidu.com/',
    'User-Agent': 你的User-Agent,
    'Cookie': 你的Cookie
}

response = requests.get(url, headers=headers).content.decode('utf-8')
# 获取关键字
pat = '"pure_title": "(.*?)"'
keyword = re.findall(pat, response, re.S)
print(len(keyword))

for hot_word in keyword:
    # 汉字不符合url标准,所以这里需要进行url编码
    i = urllib.parse.quote(hot_word, encoding='utf-8', errors='replace')
    # url构建
    link = f'https://www.baidu.com/s?cl=3&tn=baidutop10&fr=top1000&wd={i}&rsv_idx=2&rsv_dl=fyb_n_homepage&hisfilter=1'
    print(link)

你会发现结果很长:

python获取百度热榜链接的实例方法

但其实关键字后面的几个参数是可以去掉的,这样url就没有那么长了。

python获取百度热榜链接的实例方法

内容扩展:

python 爬取简单的百度搜索结果

爬取百度搜索结果

主要还要借助xpath helper谷歌浏览器的插件来操作更容易找到需要查找信息的xpath位置

还要首先了解一下百度搜索请求的参数 lm默认为0,天数限制,但是好像只有1有用。

默认每页10条信息,rn

pn是页码

from lxml import etree
import re
import requests
import string
import json
headers = {
  "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36"
}
response = requests.get('https://www.baidu.com/s?wd=腾讯视频优惠&lm=1',headers=headers)
r = response.text
html = etree.HTML(r,etree.HTMLParser())
r1 = html.xpath('//h3')
r2 = html.xpath('//*[@class="c-abstract"]')
r3 = html.xpath('//a[@class="c-showurl"]')
for i in range(10) :
  r11 = r1[i].xpath('string(.)')
  r22 = r2[i].xpath('string(.)')
  r33 = r3[i].xpath('string(.)')
  # with open('test.txt', 'a', encoding='utf-8') as f:
  #   f.write(json.dumps(r11,ensure_ascii=False) + '\n')
  #   f.write(json.dumps(r22, ensure_ascii=False) + '\n')
  #   f.write(json.dumps(r33, ensure_ascii=False) + '\n')
  print(r11,end='\n')
  print(r22,end='\n')
  print(r33)
  print()

到此这篇关于python获取百度热榜链接的实例方法的文章就介绍到这了,更多相关教你用python获取百度热榜链接内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python装饰器(decorator)定义与用法详解
Feb 09 Python
详解Pytorch 使用Pytorch拟合多项式(多项式回归)
May 24 Python
可能是最全面的 Python 字符串拼接总结【收藏】
Jul 09 Python
对python 操作solr索引数据的实例详解
Dec 07 Python
对python实现二维函数高次拟合的示例详解
Dec 29 Python
十个Python练手的实战项目,学会这些Python就基本没问题了(推荐)
Apr 26 Python
pyqt5实现绘制ui,列表窗口,滚动窗口显示图片的方法
Jun 20 Python
简单了解python数组的基本操作
Nov 26 Python
python 字段拆分详解
Dec 17 Python
python numpy数组中的复制知识解析
Feb 03 Python
Selenium自动化测试工具使用方法汇总
Jun 12 Python
python字典进行运算原理及实例分享
Aug 02 Python
利用Python如何制作贪吃蛇及AI版贪吃蛇详解
Aug 24 #Python
python实现自动清理重复文件
Aug 24 #Python
anaconda3安装及jupyter环境配置全教程
Aug 24 #Python
Python+pyftpdlib实现局域网文件互传
Aug 24 #Python
实例代码讲解Python 线程池
Aug 24 #Python
详解python UDP 编程
Aug 24 #Python
PyTorch如何搭建一个简单的网络
Aug 24 #Python
You might like
如何获知PHP程序占用多少内存(memory_get_usage)
2012/09/23 PHP
探讨PHP JSON中文乱码的解决方法详解
2013/06/06 PHP
php中引用符号(&)的使用详解
2013/11/13 PHP
PHP 面向对象程序设计(oop)学习笔记 (四) - 异常处理类Exception
2014/06/12 PHP
CodeIgniter扩展核心类实例详解
2016/01/20 PHP
Yii2中cookie用法示例分析
2016/07/18 PHP
javascript之卸载鼠标事件的代码
2007/05/14 Javascript
JSON序列化与解析原生JS方法且IE6和chrome测试通过
2013/09/05 Javascript
jQuery增加与删除table列的方法
2016/03/01 Javascript
关于webuploader插件使用过程遇到的小问题
2016/11/07 Javascript
Bootstrap select下拉联动(jQuery cxselect)
2017/01/04 Javascript
js中编码函数:escape,encodeURI与encodeURIComponent详解
2017/03/21 Javascript
Javascript中类式继承和原型式继承的实现方法和区别之处
2017/04/25 Javascript
Node.js爬取豆瓣数据实例分析
2018/03/05 Javascript
Vue 项目中遇到的跨域问题及解决方法(后台php)
2018/03/28 Javascript
vue页面加载闪烁问题的解决方法
2018/03/28 Javascript
如何利用@angular/cli V6.0直接开发PWA应用详解
2018/05/06 Javascript
微信小程序 自定义复选框实现代码实例
2019/09/04 Javascript
如何使用webpack打包一个库library的方法步骤
2019/12/18 Javascript
JS highcharts动态柱状图原理及实现
2020/10/16 Javascript
Python爬虫_城市公交、地铁站点和线路数据采集实例
2018/01/10 Python
OpenCV2从摄像头获取帧并写入视频文件的方法
2018/08/03 Python
Django实现后台上传并显示图片功能
2020/05/29 Python
前端H5 Video常见使用场景简介
2020/08/21 HTML / CSS
SkinCeuticals官网:美国药妆品牌
2018/04/19 全球购物
Myprotein荷兰官网:欧洲第一运动营养品牌
2020/07/11 全球购物
生物技术毕业生自荐信
2013/10/23 职场文书
酒店总经理助理职责
2014/02/12 职场文书
产假请假条
2014/04/10 职场文书
节水口号标语
2014/06/19 职场文书
2014党支部对照检查材料思想汇报
2014/10/05 职场文书
党员自我剖析材料范文
2014/10/06 职场文书
房屋租赁合同解除协议书
2014/10/11 职场文书
借款民事起诉状范文
2015/05/19 职场文书
干部培训工作总结2015
2015/05/25 职场文书
婚前协议书怎么写,才具有法律效力呢 ?
2019/06/28 职场文书