编程 Python

详解Python网络爬虫功能的基本写法

Posted in Python onJanuary 28, 2016

网络爬虫，即Web Spider，是一个很形象的名字。把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。

1. 网络爬虫的定义

网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站，那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。这样看来，网络爬虫就是一个爬行程序，一个抓取网页的程序。网络爬虫的基本操作是抓取网页。

2. 浏览网页的过程

抓取网页的过程其实和读者平时使用IE浏览器浏览网页的道理是一样的。比如说你在浏览器的地址栏中输入 www.baidu.com 这个地址。

打开网页的过程其实就是浏览器作为一个浏览的“客户端”，向服务器端发送了一次请求，把服务器端的文件“抓”到本地，再进行解释、展现。

HTML是一种标记语言，用标签标记内容并加以解析和区分。浏览器的功能是将获取到的HTML代码进行解析，然后将原始的代码转变成我们直接看到的网站页面。

3. 基于python实现的网络爬虫功能

1). python获取html页面

其实，最基本的抓站，两句话就可以了:

import urllib2
content = urllib2.urlopen('http://XXXX').read()

这样可以得到整个 html 文档，关键的问题是我们可能需要从这个文档中获取我们需要的有用信息，而不是整个文档。这就需要解析充满了各种标签的 html。

2). python爬虫抓取页面后解析html方法

python爬虫html解析库SGMLParser

Python 默认自带 HTMLParser 以及 SGMLParser 等等解析器，前者实在是太难用了，我就用 SGMLParser 写了一个示例程序：

import urllib2
from sgmllib import SGMLParser
 
class ListName(SGMLParser):
def __init__(self):
SGMLParser.__init__(self)
self.is_h4 = ""
self.name = []
def start_h4(self, attrs):
self.is_h4 = 1
def end_h4(self):
self.is_h4 = ""
def handle_data(self, text):
if self.is_h4 == 1:
self.name.append(text)
 
content = urllib2.urlopen('http://169it.com/xxx.htm').read()
listname = ListName()
listname.feed(content)
for item in listname.name:
print item.decode('gbk').encode('utf8')

很简单，这里定义了一个叫做 ListName 的类，继承 SGMLParser 里面的方法。使用一个变量 is_h4 做标记判定 html 文件中的 h4 标签，如果遇到 h4 标签，则将标签内的内容加入到 List 变量 name 中。解释一下 start_h4() 和 end_h4() 函数，他们原型是 SGMLParser 中的

start_tagname(self, attrs)
end_tagname(self)

tagname 就是标签名称，比如当遇到 <pre>，就会调用 start_pre，遇到 </pre>，就会调用 end_pre。attrs 为标签的参数，以 [(attribute, value), (attribute, value), ...] 的形式传回。

python爬虫html解析库pyQuery

pyQuery 是 jQuery 在 python 中的实现，能够以 jQuery 的语法来操作解析 HTML 文档，十分方便。使用前需要安装，easy_install pyquery 即可，或者 Ubuntu 下

sudo apt-get install python-pyquery

以下例子：

from pyquery import PyQuery as pyq
doc=pyq(url=r'http://169it.com/xxx.html')
cts=doc('.market-cat')
 
for i in cts:
print '====',pyq(i).find('h4').text() ,'===='
for j in pyq(i).find('.sub'):
print pyq(j).text() ,
print '\n'

python爬虫html解析库BeautifulSoup

有个头痛的问题是，大部分的网页都没有完全遵照标准来写，各种莫名其妙的错误令人想要找出那个写网页的人痛打一顿。为了解决这个问题，我们可以选择著名的 BeautifulSoup 来解析html 文档，它具有很好的容错能力。

以上就是本文的全部内容，对Python网络爬虫功能的实现进行了详细的分析介绍，希望对大家的学习有所帮助。

详解Python网络爬虫功能的基本写法

- Author -

lijiao

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python中对列表排序实例

Jan 04 Python

python过滤字符串中不属于指定集合中字符的类实例

Jun 30 Python

Python编程之event对象的用法实例分析

Mar 23 Python

Python饼状图的绘制实例

Jan 15 Python

python调用pyaudio使用麦克风录制wav声音文件的教程

Jun 26 Python

python使用mitmproxy抓取浏览器请求的方法

Jul 02 Python

python SQLAlchemy 中的Engine详解

Jul 04 Python

python 进程进程池进程间通信实现解析

Aug 23 Python

python 批量修改 labelImg 生成的xml文件的方法

Sep 09 Python

django框架两个使用模板实例

Dec 11 Python

Python json模块与jsonpath模块区别详解

Mar 05 Python

Python如何把字典写入到CSV文件的方法示例

Aug 23 Python

Python3实现Web网页图片下载

Jan 28 #Python

Python正则获取、过滤或者替换HTML标签的方法

Jan 28 #Python

Python每天必学之bytes字节

Jan 28 #Python

Python装饰器入门学习教程(九步学习)

Jan 28 #Python

基于Python如何使用AIML搭建聊天机器人

Jan 27 #Python

使用Python写个小监控

Jan 27 #Python

基于Python实现通过微信搜索功能查看谁把你删除了

Jan 27 #Python

You might like

分享PHP入门的学习方法

2007/01/02 PHP

PHP5中Cookie与 Session使用详解

2013/04/30 PHP

如何用php获取文件名后缀

2013/06/09 PHP

PHP并发多进程处理利器Gearman使用介绍

2016/05/16 PHP

thinkphp5 加载静态资源路径与常量的方法

2017/12/24 PHP

Yii2框架数据验证操作实例详解

2018/05/02 PHP

PHP各种常见经典算法总结【排序、查找、翻转等】

2019/08/05 PHP

加载jQuery后$冲突的解决办法

2010/07/09 Javascript

Javascript 类、命名空间、代码组织代码

2011/07/31 Javascript

js 限制input只能输入数字、字母和汉字等等

2013/12/18 Javascript

js实现select跳转功能代码

2014/10/22 Javascript

javascript获取以及设置光标位置

2017/02/16 Javascript

Vue2.0 组件传值通讯的示例代码

2017/08/01 Javascript

写gulp遇到的ES6问题详解

2018/12/03 Javascript

基于elementUI实现图片预览组件的示例代码

2019/03/31 Javascript

vue.js购物车添加商品组件的方法

2019/09/17 Javascript

vue下的@change事件的实现

2019/10/25 Javascript

小程序跨页面交互的作用与方法详解

2020/01/07 Javascript

如何配置vue.config.js 处理static文件夹下的静态文件

2020/06/19 Javascript

零基础写python爬虫之HTTP异常处理

2014/11/05 Python

pyQt4实现俄罗斯方块游戏

2018/06/26 Python

对pandas读取中文unicode的csv和添加行标题的方法详解

2018/12/12 Python

使用python实现CGI环境搭建过程解析

2020/04/28 Python

Pytorch 解决自定义子Module .cuda() tensor失败的问题

2020/06/23 Python

服务生自我鉴定

2014/01/22 职场文书

教师演讲稿开场白

2014/08/25 职场文书

城市规划应届生推荐信

2014/09/08 职场文书

乡镇组织委员个人整改措施

2014/09/16 职场文书

甜品蛋糕店创业计划书

2014/09/21 职场文书

法英专业大学生职业生涯规划范文：衡外情，量己力！

2014/09/23 职场文书

给女朋友道歉的话大全

2015/01/20 职场文书

导师鉴定意见

2015/06/05 职场文书

python基于tkinter制作m3u8视频下载工具

2021/04/24 Python

Python scrapy爬取起点中文网小说榜单

2021/06/13 Python

MySQL系列之十 MySQL事务隔离实现并发控制

2021/07/02 MySQL

Python使用pandas导入csv文件内容的示例代码

2022/12/24 Python