编程 Python

基于python requests selenium爬取excel vba过程解析

Posted in Python onAugust 12, 2020

目的：基于办公与互联网隔离，自带的office软件没有带本地帮助工具，因此在写vba程序时比较不方便(后来发现07有自带，心中吐血，瞎折腾些什么）。所以想到通过爬虫在官方摘录下来作为参考。

目标网站：https://docs.microsoft.com/zh-cn/office/vba/api/overview/

所使工具:

python3.7,requests、selenium库

前端方面：使用了jquery、jstree(用于方便的制作无限层级菜单

设计思路：

1、分析目标页面，可分出两部分，左边时导航，右边是内容显示。

2、通过selenium对导航条进行深度遍历，取得导航条所有节点以及对应的链接，并以jstree的数据格式存储。

# 导航层级为
<ul>
  <li>
    <a>...
    <span>....

3、使用requests遍历所有链接取得相应主体页面。

实现：

#
# parent 上级节点
# wait_text 上级节点对应的xpath路径的文本项
# level,limit 仅方便测试使用
#
def GetMenuDick_jstree(parent,level,wait_text,limit=2):
  if level >= limit: return []
  parent.click()
  l = []
  num = 1
  new_wati_text = wait_text + '/following-sibling::ul' # 只需要等待ul出来就可以了/li[' + str(ele_num) + ']'
  try:
    wait.until(EC.presence_of_element_located((By.XPATH,new_wati_text)))
    # 查询子节点所有的 a节点和span节点（子菜单）
    childs = parent.find_elements_by_xpath('following-sibling::ul/li/span | following-sibling::ul/li/a')
    for i in childs:
      k = {}
      if i.get_attribute('role') == None:
        k['text'] = i.text
        # 如果是子菜单，进行深度遍历
        k['children'] = GetMenuDick_jstree(i,level+1,new_wati_text + '/li[' + str(num) + ']/span',limit)
      else:
        # 网页访问的Url无Html后缀，需要加上。去除无相关地址，形成相对路径。
        url_text = str(i.get_attribute('href')).replace('https://docs.microsoft.com/zh-cn/office/', '',1) + '.html'
        k['text'] = i.text
        k['a_attr'] = {"href":url_text,"target":"showframe"}
        lhref.append(str(i.get_attribute('href')))
      num = num + 1
      l.append(k)
    parent.click()  # 最后收起来
  except Exception as e:
    print('error message:',str(e),'error parent:' ,parent.text,' new_wati_text:',new_wati_text,'num:',str(num))
    lerror.append(parent.text)
  finally:
    return l

# data菜单，lhref为后续需要访问的地址。
# 找到第一个excel节点，从excel开始
data = []
lhref = []
lerror = []
k = {}
browser.get(start_url)
browser.set_page_load_timeout(10)  #超时设置
xpath_text = '//li[contains(@class,"tree")]/span[text()="Excel"][1]'
cl = browser.find_element_by_xpath(xpath_text)
k = {'text':'Excel'}
k['children'] = GetMenuDick_jstree(cl,1,xpath_text,20)
data.append(k)
# Writing JSON data
with open(r'templete\data.json', 'w', encoding='utf-8') as f:
  json.dump(data, f)

进行到这里，已经拥有了excel vba下所有的菜单信息以及对应的url。下来需要得到页面主体。

实现思路：

1、遍历所有url

2、通过url得到相应的文件名

#
#  根据网页地址，得到文件名，并创建相应文件夹
#
def create_file(url):
  t = 'https://docs.microsoft.com/zh-cn/office/'
  # 替换掉字眼，然后根据路径生成相应文件夹
  url = url.replace(t,"",1)
  lname = url.split('/')
  # 先判断有没有第一个文件夹
  path = lname[0]
  if not os.path.isdir(path):
    os.mkdir(path)
  for l in lname[1:-1]:
    path = path + '\\' + str(l)
    if not os.path.isdir(path):
      os.mkdir(path)
  if len(lname) > 1:
    path = path + '\\' + lname[-1] + '.html'
  return path

3、访问url得到主体信息储存。

# requests模式
# 循环遍历,如果错误，记录下来，以后再执行
had_lhref = []
error_lhref = []
num = 1
for url in lhref:
  try:
    had_lhref.append(url)
    path = create_file(url)
    resp = requests.get(url,timeout=5,headers = headers) # 设置访问超时，以及http头
    resp.encoding = 'utf-8'
    html = etree.HTML(resp.text)
    c = html.xpath('//main[@id="main"]')
    # tostring获取标签所有html内容，是字节类型，要decode为字符串
    content = html_head + etree.tostring(c[0], method='html').decode('utf-8')
    with open(path,'w', encoding='utf-8') as f:
      f.write(content)
  except Exception as e:
    print('error message:',str(e),'error url:',url)
    error_lhref.append(url)
  if num % 10 == 0 :
    print('done:',str(num) + '/' + str(len(lhref)),'error num:' + str(len(error_lhref)))
  #time.sleep(1) # 睡眠一下，防止被反
  num = num + 1

现在，菜单信息与内容都有了，需要构建自己的主页，这里使用了jstree;2个html，index.html,menu.html。

index.html:使用frame页面框架，相对隔离。

<!DOCTYPE html>
<html>

<head>
  <meta charset="UTF-8">
  <meta name="viewport" content="width=device-width, initial-scale=1, maximum-scale=1, user-scalable=no">
  <title>参考文档</title>
  <script src="js/jquery.min.js"> </script>
</head>
<frameset rows="93%,7%">
  <frameset cols="20%,80%" frameborder="yes" framespacing="1">
    <frame src="menu.html" name="menuframe"/>
    <frame id="showframe" name="showframe" />
  </frameset>
  <frameset frameborder="no" framespacing="1">
    <frame src="a.html" />
  </frameset>
</frameset>

</html>

menu.html:

1、引入了data.json，这样在可以进行离线调用，使用ajax.get读取json的话，会提示跨域失败；

2、jstree会禁止<a>跳转事件，所有需要通过监听"change.tree"事件来进行跳转。

<!DOCTYPE html>
<html lang="en">

<head>
  <meta charset="UTF-8">
  <title>Title</title>
  <script src="js/jquery.min.js"></script>
  <link rel="stylesheet" href="themes/default/style.min.css" rel="external nofollow" />
  <script src="js/jstree.min.js"></script>
  <script type="text/javascript" src="data.json"></script>
</head>

<body>
  <div>

    <form id="s">
      <input type="search" id="q" />
      <button type="submit">Search</button>
    </form>
    <div id="container">

    </div>

    <div id="container"></div>
    <script>
      $(function () {
        $('#container').jstree({
          "plugins": ["search", "changed"],
          'core': {
            'data': data,
          }

        });
      });
      $('#container').on("changed.jstree", function (e, data) {
        //console.log(data.changed.selected.length); // newly selected
        //console.log(data.changed.deselected); // newly deselected
        if (data.changed.selected.length > 0){
          // 说明转换了，获取url
          var url = data.node.a_attr.href
          // console.log(url)
          if (url == "#"){

          }else{
            parent[data.node.a_attr.target].location.href = url
          }
        }else{

        }
      })

      $("#s").submit(function (e) {
        e.preventDefault();
        $("#container").jstree(true).search($("#q").val());
      });
    </script>
  </div>
</body>

</html>

以上，得到最后的本地版网页excel vba参考工具。最后，部分office自带本地版的vba参考工具，有点白干一场。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

基于python requests selenium爬取excel vba过程解析

- Author -

forxtz

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

使用Python的Flask框架实现视频的流媒体传输

Mar 31 Python

查看Python安装路径以及安装包路径小技巧

Apr 28 Python

Python标准库defaultdict模块使用示例

Apr 28 Python

Python IDE PyCharm的基本快捷键和配置简介

Nov 04 Python

在python中bool函数的取值方法

Nov 01 Python

Python读取csv文件分隔符设置方法

Jan 14 Python

树莓派动作捕捉抓拍存储图像脚本

Jun 22 Python

如何不用安装python就能在.NET里调用Python库

Jul 12 Python

基于django传递数据到后端的例子

Aug 16 Python

python网络编程之多线程同时接受和发送

Sep 03 Python

如何在python中写hive脚本

Nov 08 Python

Python:合并两个numpy矩阵的实现

Dec 02 Python

PyCharm+PyQt5+QtDesigner配置详解

Aug 12 #Python

Python自动发送和收取邮件的方法

Aug 12 #Python

Selenium webdriver添加cookie实现过程详解

Aug 12 #Python

Python如何设置指定窗口为前台活动窗口

Aug 12 #Python

Python面向对象实现方法总结

Aug 12 #Python

Python命名空间及作用域原理实例解析

Aug 12 #Python

python将字典内容写入json文件的实例代码

Aug 12 #Python

You might like

从C/C++迁移到PHP——判断字符类型的函数

2006/10/09 PHP

PHP imagegrabscreen和imagegrabwindow(截取网站缩略图)的实例代码

2013/11/07 PHP

PHP合并数组函数array_merge用法分析

2017/02/17 PHP

PHP使用new StdClass()创建空对象的方法分析

2017/06/06 PHP

十分钟打造AutoComplete自动完成效果代码

2009/12/26 Javascript

jQuery给元素添加样式的方法详解

2015/12/30 Javascript

两种js监听滚轮事件的实现方法

2016/05/13 Javascript

正则表达式(语法篇推荐)

2016/06/24 Javascript

关于动态生成dom绑定事件失效的原因及解决方法

2016/08/06 Javascript

Angular.js中angular-ui-router的简单实践

2017/07/18 Javascript

Bootstrap框架建立树形菜单(Tree)的实例代码

2017/10/30 Javascript

JS基于设计模式中的单例模式（Singleton）实现封装对数据增删改查功能

2018/02/06 Javascript

JS实现的集合去重，交集，并集，差集功能示例

2018/03/13 Javascript

webpack-mvc 传统多页面组件化开发详解

2019/05/07 Javascript

JavaScript 替换所有匹配内容及正则替换方法

2020/02/12 Javascript

Python使用pylab库实现画线功能的方法详解

2017/06/08 Python

Python下调用Linux的Shell命令的方法

2018/06/12 Python

使用Python3内置文档高效学习以及官方中文文档

2019/05/19 Python

python binascii 进制转换实例

2019/06/12 Python

python 实现保存最新的三份文件,其余的都删掉

2019/12/22 Python

Django查询优化及ajax编码格式原理解析

2020/03/25 Python

python中adb有什么功能

2020/06/07 Python

将pycharm配置为matlab或者spyder的用法说明

2020/06/08 Python

中国跨境海淘网站：考拉海购

2016/08/01 全球购物

韩国江南富人区高端时尚百货商场：Galleria（格乐丽雅）

2018/03/27 全球购物

Dower & Hall官网：英国小众轻奢珠宝品牌

2019/01/31 全球购物

英文版银行求职信

2013/10/09 职场文书

关于保护环境的建议书

2014/05/13 职场文书

珍惜资源的建议书

2014/08/26 职场文书

2014小学语文教师个人工作总结

2014/12/03 职场文书

硕士毕业论文导师评语

2014/12/31 职场文书

毕业论文致谢部分怎么写

2015/05/14 职场文书

名人传读书笔记

2015/06/26 职场文书

大学学生会竞选稿

2015/11/19 职场文书

学者《孟子》名人名言

2019/08/09 职场文书

详解Java实现设计模式之责任链模式

2021/06/23 Java/Android