Python实现批量将word转html并将html内容发布至网站的方法


Posted in Python onJuly 14, 2015

本文实例讲述了Python实现批量将word转html并将html内容发布至网站的方法。分享给大家供大家参考。具体实现方法如下:

#coding=utf-8
__author__ = 'zhm'
from win32com import client as wc
import os
import time
import random
import MySQLdb
import re
def wordsToHtml(dir):
#批量把文件夹的word文档转换成html文件
 #金山WPS调用,抢先版的用KWPS,正式版WPS
 word = wc.Dispatch('KWPS.Application')
 for path, subdirs, files in os.walk(dir):
  for wordFile in files:
   wordFullName = os.path.join(path, wordFile)
   #print "word:" + wordFullName
   doc = word.Documents.Open(wordFullName)
   wordFile2 = unicode(wordFile, "gbk")
   dotIndex = wordFile2.rfind(".")
   if(dotIndex == -1):
    print '********************ERROR: 未取得后缀名!'
   fileSuffix = wordFile2[(dotIndex + 1) : ]
   if(fileSuffix == "doc" or fileSuffix == "docx"):
    fileName = wordFile2[ : dotIndex]
    htmlName = fileName + ".html"
    htmlFullName = os.path.join(unicode(path, "gbk"), htmlName)
    # htmlFullName = unicode(path, "gbk") + "\\" + htmlName
    print u'生成了html文件:' + htmlFullName
    doc.SaveAs(htmlFullName, 8)
    doc.Close()
 word.Quit()
 print ""
 print "Finished!"
def html_add_to_db(dir):
#将转换成功的html文件批量插入数据库中。
 conn = MySQLdb.connect(
  host='localhost',
  port=3306,
  user='root',
  passwd='root',
  db='test',
  charset='utf8'
  )
 cur = conn.cursor()
 for path, subdirs, files in os.walk(dir):
  for htmlFile in files:
   htmlFullName = os.path.join(path, htmlFile)
   title = os.path.splitext(htmlFile)[0]
   targetDir = 'D:/files/htmls/'
   #D:/files为web服务器配置的静态目录
   sconds = time.time()
   msconds = sconds * 1000
   targetFile = os.path.join(targetDir, str(int(msconds))+str(random.randint(100, 10000)) +'.html')
   htmlFile2 = unicode(htmlFile, "gbk")
   dotIndex = htmlFile2.rfind(".")
   if(dotIndex == -1):
    print '********************ERROR: 未取得后缀名!'
   fileSuffix = htmlFile2[(dotIndex + 1) : ]
   if(fileSuffix == "htm" or fileSuffix == "html"):
    if not os.path.exists(targetDir):
     os.makedirs(targetDir)
    htmlFullName = os.path.join(unicode(path, "gbk"), htmlFullName)
    htFile = open(htmlFullName,'rb')
    #获取网页内容
    htmStrCotent = htFile.read()
    #找出里面的图片
    img=re.compile(r"""<img\s.*?\s?src\s*=\s*['|"]?([^\s'"]+).*?>""",re.I)
    m = img.findall(htmStrCotent)
    for tagContent in m:
     imgSrc = unicode(tagContent, "gbk")
     imgSrcFullName = os.path.join(path, imgSrc)
     #上传图片
     imgTarget = 'D:/files/images/whzx/'
     img_sconds = time.time()
     img_msconds = sconds * 1000
     targetImgFile = os.path.join(imgTarget, str(int(img_msconds))+str(random.randint(100, 10000)) +'.png')
     if not os.path.exists(imgTarget):
      os.makedirs(imgTarget)
     if not os.path.exists(targetImgFile) or(os.path.exists(targetImgFile) and (os.path.getsize(targetImgFile) != os.path.getsize(imgSrcFullName))):
      tmpImgFile = open(imgSrcFullName,'rb')
      tmpWriteImgFile = open(targetImgFile, "wb")
      tmpWriteImgFile.write(tmpImgFile.read())
      tmpImgFile.close()
      tmpWriteImgFile.close()
      htmStrCotent=htmStrCotent.replace(tagContent,targetImgFile.split(":")[1])
    if not os.path.exists(targetFile) or(os.path.exists(targetFile) and (os.path.getsize(targetFile) != os.path.getsize(htmlFullName))):
     #用iframe包装转换好的html文件。
     iframeHtml='''
     <script type="text/javascript" language="javascript">
      function iFrameHeight() {
       var ifm= document.getElementById("iframepage");
       var subWeb = document.frames ? document.frames["iframepage"].document:ifm.contentDocument;
       if(ifm != null && subWeb != null) {
        ifm.height = subWeb.body.scrollHeight;
       }
      }
     </script>
     <iframe src='''+targetFile.split(':')[1]+'''
      marginheight="0" marginwidth="0" frameborder="0" scrolling="no" width="765" height=100% id="iframepage" name="iframepage" onLoad="iFrameHeight()" ></iframe>
     '''
     tmpTargetFile = open(targetFile, "wb")
     tmpTargetFile.write(htmStrCotent)
     tmpTargetFile.close()
     htFile.close()
     try:
      # 执行
      sql = "insert into common_article(title,content) values(%s,%s)"
      param = (unicode(title, "gbk"),iframeHtml)
      cur.execute(sql,param)
     except:
      print "Error: unable to insert data"
 cur.close()
 conn.commit()
 # 关闭数据库连接
 conn.close()
if __name__ == '__main__':
 wordsToHtml('d:/word')
 html_add_to_db('d:/word')

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
Python中dictionary items()系列函数的用法实例
Aug 21 Python
Python中用post、get方式提交数据的方法示例
Sep 22 Python
使用Python读取安卓手机的屏幕分辨率方法
Mar 31 Python
对python抓取需要登录网站数据的方法详解
May 21 Python
python 格式化输出百分号的方法
Jan 20 Python
Python中函数参数匹配模型详解
Jun 09 Python
Django 开发环境配置过程详解
Jul 18 Python
python Jupyter运行时间实例过程解析
Dec 13 Python
解决tensorflow读取本地MNITS_data失败的原因
Jun 22 Python
从零开始的TensorFlow+VScode开发环境搭建的步骤(图文)
Aug 31 Python
详解查看Python解释器路径的两种方式
Oct 15 Python
python实现简单的学生管理系统
Feb 22 Python
Python删除windows垃圾文件的方法
Jul 14 #Python
Python简单计算文件夹大小的方法
Jul 14 #Python
Python判断直线和矩形是否相交的方法
Jul 14 #Python
Python下Fabric的简单部署方法
Jul 14 #Python
python简单获取数组元素个数的方法
Jul 13 #Python
python连接字符串的方法小结
Jul 13 #Python
简单上手Python中装饰器的使用
Jul 12 #Python
You might like
Aster vs KG BO3 第三场2.18
2021/03/10 DOTA
js类的静态属性和实例属性的理解
2009/10/01 Javascript
js模仿html5 placeholder适应于不支持的浏览器
2013/01/13 Javascript
jQuery拖拽div实现思路
2014/02/19 Javascript
JavaScript中实现sprintf、printf函数
2015/01/27 Javascript
javascript结合fileReader 实现上传图片
2015/01/30 Javascript
jQuery中 prop() attr()使用详解
2015/05/19 Javascript
js实现文本框选中的方法
2015/05/26 Javascript
基于jQuery实现收缩展开功能
2016/03/18 Javascript
jquery设置css样式的多种方法(总结)
2017/02/21 Javascript
Vue组件和Route的生命周期实例详解
2018/02/10 Javascript
vue-cli3.0 特性解读
2018/04/22 Javascript
超出JavaScript安全整数限制的数字计算BigInt详解
2018/06/24 Javascript
一次Webpack配置文件的分离实战记录
2018/11/30 Javascript
js实现一款简单踩白块小游戏(曾经很火)
2019/12/02 Javascript
vue-socket.io接收不到数据问题的解决方法
2020/05/13 Javascript
[01:23]2019完美世界全国高校联赛(春季赛)合肥全国总决赛
2019/06/10 DOTA
python输出指定月份日历的方法
2015/04/23 Python
深入浅析python中的多进程、多线程、协程
2016/06/22 Python
Python实现去除列表中重复元素的方法小结【4种方法】
2018/04/27 Python
python 自定义对象的打印方法
2019/01/12 Python
画pytorch模型图,以及参数计算的方法
2019/08/17 Python
美国高端寝具品牌:Coyuchi
2017/02/08 全球购物
联想新加坡官方网站:Lenovo Singapore
2017/10/24 全球购物
Chemist Warehouse中文网:澳洲连锁大药房
2021/02/05 全球购物
若干个Java基础面试题
2015/05/19 面试题
给海归自荐信的建议
2013/12/13 职场文书
金融行业职业生涯规划范文
2014/01/17 职场文书
小学毕业感言50字
2014/02/16 职场文书
国贸专业的职业规划书
2014/03/15 职场文书
在职员工证明书
2014/09/19 职场文书
社区节水倡议书
2015/04/29 职场文书
色戒观后感
2015/06/12 职场文书
2016年企业安全生产月活动总结
2016/04/06 职场文书
使用Mysql计算地址的经纬度距离和实时位置信息
2022/04/29 MySQL
Redis+AOP+自定义注解实现限流
2022/06/28 Redis