python获取百度热榜链接的实例方法


Posted in Python onAugust 25, 2020

目标网址:

https://www.baidu.com/

要获取的内容:

python获取百度热榜链接的实例方法

链接分析:

从下图可以看出只需要获取关键字,再构建就可以了。

python获取百度热榜链接的实例方法

完整代码:

import requests
import pprint
import re
import urllib.parse

url = 'https://www.baidu.com/'

headers = {
    'Host': 'www.baidu.com',
    'Referer': 'https://www.baidu.com/',
    'User-Agent': 你的User-Agent,
    'Cookie': 你的Cookie
}

response = requests.get(url, headers=headers).content.decode('utf-8')
# 获取关键字
pat = '"pure_title": "(.*?)"'
keyword = re.findall(pat, response, re.S)
print(len(keyword))

for hot_word in keyword:
    # 汉字不符合url标准,所以这里需要进行url编码
    i = urllib.parse.quote(hot_word, encoding='utf-8', errors='replace')
    # url构建
    link = f'https://www.baidu.com/s?cl=3&tn=baidutop10&fr=top1000&wd={i}&rsv_idx=2&rsv_dl=fyb_n_homepage&hisfilter=1'
    print(link)

你会发现结果很长:

python获取百度热榜链接的实例方法

但其实关键字后面的几个参数是可以去掉的,这样url就没有那么长了。

python获取百度热榜链接的实例方法

内容扩展:

python 爬取简单的百度搜索结果

爬取百度搜索结果

主要还要借助xpath helper谷歌浏览器的插件来操作更容易找到需要查找信息的xpath位置

还要首先了解一下百度搜索请求的参数 lm默认为0,天数限制,但是好像只有1有用。

默认每页10条信息,rn

pn是页码

from lxml import etree
import re
import requests
import string
import json
headers = {
  "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36"
}
response = requests.get('https://www.baidu.com/s?wd=腾讯视频优惠&lm=1',headers=headers)
r = response.text
html = etree.HTML(r,etree.HTMLParser())
r1 = html.xpath('//h3')
r2 = html.xpath('//*[@class="c-abstract"]')
r3 = html.xpath('//a[@class="c-showurl"]')
for i in range(10) :
  r11 = r1[i].xpath('string(.)')
  r22 = r2[i].xpath('string(.)')
  r33 = r3[i].xpath('string(.)')
  # with open('test.txt', 'a', encoding='utf-8') as f:
  #   f.write(json.dumps(r11,ensure_ascii=False) + '\n')
  #   f.write(json.dumps(r22, ensure_ascii=False) + '\n')
  #   f.write(json.dumps(r33, ensure_ascii=False) + '\n')
  print(r11,end='\n')
  print(r22,end='\n')
  print(r33)
  print()

到此这篇关于python获取百度热榜链接的实例方法的文章就介绍到这了,更多相关教你用python获取百度热榜链接内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python中针对函数处理的特殊方法
Mar 06 Python
Python字符串转换成浮点数函数分享
Jul 24 Python
Python统计纯文本文件中英文单词出现个数的方法总结【测试可用】
Jul 25 Python
对TensorFlow中的variables_to_restore函数详解
Jul 30 Python
Pandas过滤dataframe中包含特定字符串的数据方法
Nov 07 Python
判断python对象是否可调用的三种方式及其区别详解
Jan 31 Python
Python 数据库操作 SQLAlchemy的示例代码
Feb 18 Python
python Django 创建应用过程图示详解
Jul 29 Python
Pyorch之numpy与torch之间相互转换方式
Dec 31 Python
Python unittest工作原理和使用过程解析
Feb 24 Python
django queryset相加和筛选教程
May 18 Python
Python Django中间件使用原理及流程分析
Jun 13 Python
利用Python如何制作贪吃蛇及AI版贪吃蛇详解
Aug 24 #Python
python实现自动清理重复文件
Aug 24 #Python
anaconda3安装及jupyter环境配置全教程
Aug 24 #Python
Python+pyftpdlib实现局域网文件互传
Aug 24 #Python
实例代码讲解Python 线程池
Aug 24 #Python
详解python UDP 编程
Aug 24 #Python
PyTorch如何搭建一个简单的网络
Aug 24 #Python
You might like
php下通过POST还是GET来传值
2008/06/05 PHP
Zend Framework教程之Autoloading用法详解
2016/03/08 PHP
thinkphp框架实现数据添加和显示功能
2016/06/29 PHP
Yii中srbac权限扩展模块工作原理与用法分析
2016/07/14 PHP
PHP无限极分类函数的实现方法详解
2017/04/15 PHP
PHP实现对xml进行简单的增删改查(CRUD)操作示例
2017/05/19 PHP
浅谈PHP接入(第三方登录)QQ登录 OAuth2.0 过程中遇到的坑
2017/10/13 PHP
详解CSS样式中的 !important * _ 符号
2021/03/09 HTML / CSS
有关javascript的性能优化 (repaint和reflow)
2013/04/12 Javascript
JS获得URL超链接的参数值实例代码
2013/06/21 Javascript
JavaScript的RequireJS库入门指南
2015/07/01 Javascript
jQuery实现的登录浮动框效果代码
2015/09/26 Javascript
js生成随机数方法和实例
2017/01/17 Javascript
JavaScript html5利用FileReader实现上传功能
2020/03/27 Javascript
详解JS中的attribute属性
2017/04/25 Javascript
JQuery 获取Dom元素的实例讲解
2017/07/08 jQuery
解决vue打包项目后刷新404的问题
2018/03/06 Javascript
angularJS1 url中携带参数的获取方法
2018/10/09 Javascript
vuex存储复杂参数(如对象数组等)刷新数据丢失的解决方法
2019/11/05 Javascript
浅谈Vue2.4.0 $attrs与inheritAttrs的具体使用
2020/03/08 Javascript
python将人民币转换大写的脚本代码
2013/02/10 Python
Python Web框架Pylons中使用MongoDB的例子
2013/12/03 Python
Python的Django中将文件上传至七牛云存储的代码分享
2016/06/03 Python
Python编程实现二叉树及七种遍历方法详解
2017/06/02 Python
python变量的存储原理详解
2019/07/10 Python
简单了解Python读取大文件代码实例
2019/12/18 Python
使用iframe+postMessage实现页面跨域通信的示例代码
2020/01/14 HTML / CSS
学院书画协会部门岗位职责
2013/12/01 职场文书
超市业务员岗位职责
2013/12/05 职场文书
2014年司法所工作总结
2014/11/22 职场文书
2019企业文化管理制度范本!
2019/08/06 职场文书
导游词之新疆-喀纳斯
2019/10/10 职场文书
简单了解 MySQL 中相关的锁
2021/05/25 MySQL
js中Object.create实例用法详解
2021/10/05 Javascript
Python的三个重要函数详解
2022/01/18 Python
python垃圾回收机制原理分析
2022/04/13 Python