编程 Python

python解析html提取数据，并生成word文档实例解析

Posted in Python onJanuary 22, 2018

简介

今天试着用ptyhon做了一个抓取网页内容，并生成word文档的功能，功能很简单，做一下记录以备以后用到。

生成word用到了第三方组件python-docx，所以先进行第三方组件的安装。由于windows下安装的python默认不带setuptools这个模块，所以要先安装setuptools这个模块。

安装

1、在python官网上找到　https://bootstrap.pypa.io/ez_setup.py

，把代码保存到本地并执行:　 python ez_setup.py

2、下载python-docx 　(https://pypi.python.org/pypi/python-docx/0.7.4)，下载完成后解压并进入到

XXX\python-docx-0.7.4　安装python-docx :　python setup.py install

这样python-docx就安装成功了，可以用它来操作word文档了，word文档的生成参考的这里https://python-docx.readthedocs.org/en/latest/index.html

html解析用到的是sgmllib里的SGMLParser

url内容的获取用到的是urllib、urllib2

实现代码

# -*- coding: cp936 -*- 
from sgmllib import SGMLParser 
import os 
import sys 
import urllib 
import urllib2 
from docx import Document 
from docx.shared import Inches 
import time 
 
##获取要解析的url 
class GetUrl(SGMLParser): 
  def __init__(self): 
    SGMLParser.__init__(self) 
    self.start=False 
    self.urlArr=[] 
 
 
  def start_div(self,attr): 
    for name,value in attr: 
      if value=="ChairmanCont Bureau":#页面js中的固定值 
        self.start=True 
 
 
  def end_div(self): 
    self.start=False 
 
 
  def start_a(self,attr): 
    if self.start: 
      for name,value in attr: 
        self.urlArr.append(value) 
       
 
 
  def getUrlArr(self): 
    return self.urlArr 
   
##解析上面获取的url，获取有用数据 
class getManInfo(SGMLParser): 
  def __init__(self): 
    SGMLParser.__init__(self) 
    self.start=False 
    self.p=False 
    self.dl=False 
    self.manInfo=[] 
    self.subInfo=[] 
 
  def start_div(self,attr): 
    for name,value in attr: 
      if value=="SpeakerInfo":#页面js中的固定值 
        self.start=True 
 
  def end_div(self): 
    self.start=False 
 
  def start_p(self,attr): 
    if self.dl: 
      self.p=True 
 
  def end_p(self): 
    self.p=False 
 
  def start_img(self,attr): 
    if self.dl: 
      for name,value in attr: 
        self.subInfo.append(value) 
     
 
 
  def handle_data(self,data): 
    if self.p: 
      self.subInfo.append(data.decode('utf-8')) 
 
 
  def start_dl(self,attr): 
    if self.start: 
      self.dl=True 
 
  def end_dl(self): 
    self.manInfo.append(self.subInfo) 
    self.subInfo=[] 
    self.dl=False 
 
  def getManInfo(self): 
    return self.manInfo 
 
 
 
         
 
urlSource="http://www.XXX" 
sourceData=urllib2.urlopen(urlSource).read() 
 
startTime=time.clock() 
##get urls 
getUrl=GetUrl() 
getUrl.feed(sourceData) 
urlArr=getUrl.getUrlArr() 
getUrl.close() 
print "get url use:" + str((time.clock() - startTime)) 
startTime=time.clock() 
 
 
##get maninfos 
manInfos=getManInfo() 
for url in urlArr:#one url one person 
  data=urllib2.urlopen(url).read() 
  manInfos.feed(data) 
infos=manInfos.getManInfo() 
manInfos.close() 
print "get maninfos use:" + str((time.clock() - startTime)) 
startTime=time.clock() 
 
#word 
saveFile=os.getcwd()+"\\xxx.docx" 
doc=Document() 
##word title 
doc.add_heading("HEAD".decode('gbk'),0) 
p=doc.add_paragraph("HEADCONTENT:".decode('gbk')) 
 
 
##write info 
for infoArr in infos: 
  i=0 
  for info in infoArr: 
    if i==0:##img url 
      arr1=info.split('.') 
      suffix=arr1[len(arr1)-1] 
      arr2=info.split('/') 
      preffix=arr2[len(arr2)-2] 
      imgFile=os.getcwd()+"\\imgs\\"+preffix+"."+suffix 
      if not os.path.exists(os.getcwd()+"\\imgs"): 
        os.mkdir(os.getcwd()+"\\imgs") 
      imgData=urllib2.urlopen(info).read() 
 
      try: 
        f=open(imgFile,'wb') 
        f.write(imgData) 
        f.close() 
        doc.add_picture(imgFile,width=Inches(1.25)) 
        os.remove(imgFile) 
      except Exception as err: 
        print (err) 
  
       
    elif i==1: 
      doc.add_heading(info+":",level=1) 
    else: 
      doc.add_paragraph(info,style='ListBullet') 
    i=i+1 
 
   
doc.save(saveFile) 
print "word use:" + str((time.clock() - startTime))

总结

以上就是本文关于python解析html提取数据，并生成word文档实例解析的全部内容，希望对大家有所帮助。感兴趣的朋友可以继续参阅本站其他相关专题，如有不足之处，欢迎留言指出。感谢朋友们对本站的支持！

python解析html提取数据，并生成word文档实例解析

- Author -

yukiMark

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python实现查询IP地址所在地

Mar 29 Python

用Python登录好友QQ空间点赞的示例代码

Nov 04 Python

Windows下的Python 3.6.1的下载与安装图文详解(适合32位和64位)

Feb 21 Python

使用python获取csv文本的某行或某列数据的实例

Apr 03 Python

Python Pillow Image Invert

Jan 22 Python

Python控制Firefox方法总结

Jun 03 Python

Numpy将二维数组添加到空数组的实现

Dec 05 Python

PyCharm永久激活方式(推荐)

Sep 22 Python

Python气泡提示与标签的实现

Apr 01 Python

python时间序列数据转为timestamp格式的方法

Aug 03 Python

matplotlib部件之套索Lasso的使用

Feb 24 Python

聊聊python在linux下与windows下导入模块的区别说明

Mar 03 Python

Python复制Word内容并使用格式设字体与大小实例代码

Jan 22 #Python

Python读取word文本操作详解

Jan 22 #Python

python导出hive数据表的schema实例代码

Jan 22 #Python

Python的SimpleHTTPServer模块用处及使用方法简介

Jan 22 #Python

一道python走迷宫算法题

Jan 22 #Python

浅谈使用Python内置函数getattr实现分发模式

Jan 22 #Python

python正则表达式及使用正则表达式的例子

Jan 22 #Python

You might like

浅谈Eclipse PDT调试PHP程序

2014/06/09 PHP

php微信公众号js-sdk开发应用

2016/11/28 PHP

PHP的CURL方法curl_setopt()函数案例介绍(抓取网页,POST数据)

2016/12/14 PHP

广告代码静态化js通用函数

2007/05/09 Javascript

ExtJs使用IFrame的实现代码

2010/03/24 Javascript

ymPrompt的doHandler方法来实现获取子窗口返回值的方法

2010/06/25 Javascript

用js判断页面刷新或关闭的方法(onbeforeunload与onunload事件)

2012/06/22 Javascript

JavaScript实现按照指定长度为数字前面补零输出的方法

2015/03/19 Javascript

AngularJS模块管理问题的非常规处理方法

2015/04/29 Javascript

JQuery使用index方法获取Jquery对象数组下标的方法

2015/05/18 Javascript

javascript实现跨域的方法汇总

2015/06/25 Javascript

js查看一个函数的执行时间实例代码

2015/09/12 Javascript

浅谈javascript中的call、apply、bind

2016/03/06 Javascript

javascript url几种编码方式详解

2016/06/06 Javascript

JS获取checkbox的个数简单实例

2016/08/19 Javascript

基于JQuery的购物车添加删除以及结算功能示例

2017/03/08 Javascript

layui-tree实现Ajax异步请求后动态添加节点的方法

2019/09/23 Javascript

[48:56]2018DOTA2亚洲邀请赛 3.31 小组赛 A组 VG vs KG

2018/03/31 DOTA

对python list 遍历删除的正确方法详解

2018/06/29 Python

python使用PIL模块获取图片像素点的方法

2019/01/08 Python

Python基于mysql实现学生管理系统

2019/02/21 Python

PyCharm 2019.3发布增加了新功能一览

2019/12/08 Python

Anaconda和ipython环境适配的实现

2020/04/22 Python

英国最大的美妆产品在线零售商之一：Beauty Bay

2017/09/29 全球购物

英国皇家邮政海外旗舰店：Royal Mail

2018/02/21 全球购物

英国DIY和家居装饰领域的主要品牌：Wickes

2019/11/26 全球购物

俄罗斯游戏商店：Buka

2020/03/01 全球购物

班组长工作职责

2013/12/25 职场文书

学生励志演讲稿

2014/01/06 职场文书

交警个人先进事迹材料

2014/05/11 职场文书

计划生育诚信协议书

2014/11/02 职场文书

爱心募捐感谢信

2015/01/22 职场文书

小学元宵节活动总结

2015/02/06 职场文书

2015年八一建军节慰问信

2015/03/23 职场文书

七一表彰大会简报

2015/07/20 职场文书

穷人该怎么创业？谨记以下几点

2019/07/11 职场文书