使用python提取html文件中的特定数据的实现代码


Posted in Python onMarch 24, 2013

例如 具有如下结构的html文件

<div class='entry-content'> 
<p>感兴趣内容1</p> 
<p>感兴趣内容2</p> 
…… 
<p>感兴趣内容n</p> 
</div> 
<div class='content'> 
<p>内容1</p> 
<p>内容2</p> 
…… 
<p>内容n</p> 
</div>

我们尝试获得'感兴趣内容'

对于文本内容,我们保存到IDList中。
可是如何标记我们遇到的文本是感兴趣的内容呢,也就是,处于

<div class='entry-content'> 
<p>这里的内容</p> 
<p>还有这里</p> 
…… 
<p>以及这里的内容</p> 
</div>

思路如下

  1. 遇到<div class='entry-content'> 设置标记flag = True
  2. 遇到</div>后 设置标记flag = False
  3. 当flag 为True时遇到<p> 设置标记getdata = True
  4. 遇到</p> 且getdata = True,设置getdata = False

python为我们提供了SGMLParser类,SGMLParser 将 HTML 分析成 8 类数据[1],然后对每一类调用单独的方法:使用时只需继承SGMLParser 类,并编写页面信息的处理函数。

可用的处理函数如下

  • 开始标记 (Start tag) 
是一个开始一个块的 HTML 标记,象 <html>,<head>,<body> 或 <pre> 等,或是一个独一的标记,象 <br> 或 <img> 等。当它找到一个开始标记 tagname,SGMLParser 将查找名为 start_tagname 或 do_tagname 的方法。例如,当它找到一个 <pre> 标记,它将查找一个 start_pre 或 do_pre 的方法。如果找到了,SGMLParser 会使用这个标记的属性列表来调用这个方法;否则,它用这个标记的名字和属性列表来调用 unknown_starttag 方法。 
  • 结束标记 (End tag) 
是结束一个块的 HTML 标记,象 </html>,</head>,</body> 或 </pre> 等。当找到一个结束标记时,SGMLParser 将查找名为 end_tagname 的方法。如果找到,SGMLParser 调用这个方法,否则它使用标记的名字来调用 unknown_endtag 。 
  • 字符引用 (Character reference) 
用字符的十进制或等同的十六进制来表示的转义字符,象  。当找到,SGMLParser 使用十进制或等同的十六进制字符文本来调用 handle_charref 。 
  • 实体引用 (Entity reference) 
HTML 实体,象 ©。当找到,SGMLParser 使用 HTML 实体的名字来调用 handle_entityref 。 
  • 注释 (Comment) 
HTML 注释, 包括在 <!-- ... -->之间。当找到,SGMLParser 用注释内容来调用 handle_comment。 
  • 处理指令 (Processing instruction) 
HTML 处理指令,包括在 <? ... > 之间。当找到,SGMLParser 用处理指令内容来调用 handle_pi。 
  • 声明 (Declaration) 
HTML 声明,如 DOCTYPE,包括在 <! ... >之间。当找到,SGMLParser 用声明内容来调用 handle_decl。 
  • 文本数据 (Text data) 
文本块。不满足其它 7 种类别的任何东西。当找到,SGMLParser 用文本来调用 handle_data。 

综上,的到如下代码

from sgmllib import SGMLParser
class GetIdList(SGMLParser):
    def reset(self):
        self.IDlist = []
        self.flag = False
        self.getdata = False
        SGMLParser.reset(self)    def start_div(self, attrs):
        for k,v in attrs:#遍历div的所有属性以及其值
            if k == 'class' and v == 'entry-content':#确定进入了<div class='entry-content'>
                self.flag = True
                return

    def end_div(self):#遇到</div>
 self.flag = False
    def start_p(self, attrs):
        if self.flag == False:
            return
        self.getdata = True
    def end_p(self):#遇到</p>
        if self.getdata:
            self.getdata = False
    def handle_data(self, text):#处理文本
        if self.getdata:
            self.IDlist.append(text)
    def printID(self):
        for i in self.IDlist:
            print i

上面的思路存在一个bug
遇到</div>后 设置标记flag = False
如果遇到div嵌套怎么办?

<div class='entry-content'><div>我是来捣乱的</div><p>感兴趣</p></div>

在遇到第一个</div>之后标记flag = False,导致无法的到‘感兴趣内容'。
怎么办呢?如何判断遇到的</div>是和<div class='entry-content'>匹配的哪个呢?
很简单,</div>和<div>是对应的,我们可以记录他所处的层数。进入子层div verbatim加1,退出子层div  verbatim减1.这样就可以判断是否是同一层了。

修改后 如下

from sgmllib import SGMLParser
class GetIdList(SGMLParser):
    def reset(self):
        self.IDlist = []
        self.flag = False
        self.getdata = False
        self.verbatim = 0
        SGMLParser.reset(self)    def start_div(self, attrs):
        if self.flag == True:
            self.verbatim +=1 #进入子层div了,层数加1
            return
        for k,v in attrs:#遍历div的所有属性以及其值
            if k == 'class' and v == 'entry-content':#确定进入了<div class='entry-content'>
                self.flag = True
                return

    def end_div(self):#遇到</div>
        if self.verbatim == 0:
            self.flag = False
        if self.flag == True:#退出子层div了,层数减1
            self.verbatim -=1
    def start_p(self, attrs):
        if self.flag == False:
            return
        self.getdata = True
    def end_p(self):#遇到</p>
        if self.getdata:
            self.getdata = False
    def handle_data(self, text):#处理文本
        if self.getdata:
            self.IDlist.append(text)
    def printID(self):
        for i in self.IDlist:
            print i

最后  建立了我们自己的类GetIdList后如何使用呢?
简单建立实例 t = GetIdList()
the_page为字符串,内容为html
t.feed(the_page)#对html解析

t.printID()打印出结果

全部测试代码为

from sgmllib import SGMLParser
class GetIdList(SGMLParser):
    def reset(self):
        self.IDlist = []
        self.flag = False
        self.getdata = False
        self.verbatim = 0
        SGMLParser.reset(self)    def start_div(self, attrs):
        if self.flag == True:
            self.verbatim +=1 #进入子层div了,层数加1
            return
        for k,v in attrs:#遍历div的所有属性以及其值
            if k == 'class' and v == 'entry-content':#确定进入了<div class='entry-content'>
                self.flag = True
                return

    def end_div(self):#遇到</div>
        if self.verbatim == 0:
            self.flag = False
        if self.flag == True:#退出子层div了,层数减1
            self.verbatim -=1
    def start_p(self, attrs):
        if self.flag == False:
            return
        self.getdata = True
    def end_p(self):#遇到</p>
        if self.getdata:
            self.getdata = False
    def handle_data(self, text):#处理文本
        if self.getdata:
            self.IDlist.append(text)
    def printID(self):
        for i in self.IDlist:
            print i

##import urllib2
##import datetime
##vrg = (datetime.date(2012,2,19) - datetime.date.today()).days
##strUrl = 'http://www.nod32id.org/nod32id/%d.html'%(200+vrg)
##req = urllib2.Request(strUrl)#通过网络获取网页
##response = urllib2.urlopen(req)
##the_page = response.read()
the_page ='''<html>
<head>
<title>test</title>
</head>
<body>
<h1>title</h1>
<div class='entry-content'>
<div class= 'ooxx'>我是来捣乱的</div>
<p>感兴趣内容1</p>
<p>感兴趣内容2</p>
……
<p>感兴趣内容n</p>
<div class= 'ooxx'>我是来捣乱的2<div class= 'ooxx'>我是来捣乱的3</div></div>
</div>
<div class='content'>
<p>内容1</p>
<p>内容2</p>
……
<p>内容n</p>
</div>
</body>
</html>
'''
lister = GetIdList()
lister.feed(the_page)
lister.printID()

执行后 输出为

感兴趣内容1
感兴趣内容2
感兴趣内容n

参考文献

[1] 深入 Python:Dive Into Python 中文版

Python 相关文章推荐
python进阶教程之文本文件的读取和写入
Aug 29 Python
在Python中操作字典之fromkeys()方法的使用
May 21 Python
Python中Django框架下的staticfiles使用简介
May 30 Python
python爬取51job中hr的邮箱
May 14 Python
Python列表删除的三种方法代码分享
Oct 31 Python
python消费kafka数据批量插入到es的方法
Dec 27 Python
Python 利用切片从列表中取出一部分使用的方法
Feb 01 Python
解决django后台样式丢失,css资源加载失败的问题
Jun 11 Python
Python3 JSON编码解码方法详解
Sep 06 Python
python 如何将数据写入本地txt文本文件的实现方法
Sep 11 Python
在主流系统之上安装Pygame的方法
May 20 Python
属性与 @property 方法让你的python更高效
Sep 21 Python
python 切片和range()用法说明
Mar 24 #Python
python list中append()与extend()用法分享
Mar 24 #Python
python del()函数用法
Mar 24 #Python
python dict remove数组删除(del,pop)
Mar 24 #Python
python str与repr的区别
Mar 23 #Python
python 布尔操作实现代码
Mar 23 #Python
python 字符串split的用法分享
Mar 23 #Python
You might like
PHP网站提速三大“软”招
2006/10/09 PHP
将时间以距今多久的形式表示,PHP,js双版本
2012/09/25 PHP
PHP判断字符串长度的两种方法很实用
2015/09/22 PHP
Jquery Ajax学习实例6 向WebService发出请求,返回DataSet(XML) 异步调用
2010/03/18 Javascript
解析javascript 数组以及json元素的添加删除
2013/06/26 Javascript
javascript中Number对象的toString()方法分析
2014/12/20 Javascript
jquery表单插件form使用方法详解
2017/01/20 Javascript
JavaScript中七种流行的开源机器学习框架
2018/10/11 Javascript
vue路由对不同界面进行传参及跳转的总结
2019/04/20 Javascript
webpack项目使用eslint建立代码规范实现
2019/05/16 Javascript
vue 中 elment-ui table合并上下两行相同数据单元格
2019/12/26 Javascript
Javascript幻灯片播放功能实现过程解析
2020/05/07 Javascript
python list使用示例 list中找连续的数字
2014/01/27 Python
Django中对通过测试的用户进行限制访问的方法
2015/07/23 Python
python文件与目录操作实例详解
2016/02/22 Python
PyQt5每天必学之布局管理
2018/04/19 Python
python中文编码与json中文输出问题详解
2018/08/24 Python
使用python itchat包爬取微信好友头像形成矩形头像集的方法
2019/02/21 Python
详解Django中CBV(Class Base Views)模型源码分析
2019/02/25 Python
使用Python的OpenCV模块识别滑动验证码的缺口(推荐)
2019/05/10 Python
全面了解django的缓存机制及使用方法
2019/07/22 Python
django 自定义过滤器(filter)处理较为复杂的变量方法
2019/08/12 Python
python二进制读写及特殊码同步实现详解
2019/10/11 Python
Python API 操作Hadoop hdfs详解
2020/06/06 Python
python和php学习哪个更有发展
2020/06/17 Python
JackJones官方旗舰店:杰克琼斯男装
2018/03/27 全球购物
计算机专业毕业生自我鉴定
2014/01/16 职场文书
校长竞聘演讲稿
2014/05/16 职场文书
节约用水的口号
2014/06/20 职场文书
2014年个人债务授权委托书范本
2014/09/22 职场文书
麦田里的守望者读书笔记
2015/06/30 职场文书
小学英语教学随笔
2015/08/14 职场文书
小学班级管理心得体会
2016/01/07 职场文书
汽车销售合同文本
2019/08/08 职场文书
浅谈Python魔法方法
2021/06/28 Java/Android
Go gorilla/sessions库安装使用
2022/08/14 Golang