python爬虫常用的模块分析


Posted in Python onAugust 29, 2014

本文对Python爬虫常用的模块做了较为深入的分析,并以实例加以深入说明。分享给大家供大家参考之用。具体分析如下:

creepy模块

某台湾大神开发的,功能简单,能够自动抓取某个网站的所有内容,当然你也可以设定哪些url需要抓。

地址:https://pypi.python.org/pypi/creepy

功能接口:

set_content_type_filter:
设定抓取的content-type(header中的contenttype)。包括text/html

add_url_filter:
过滤url,传入的可以是正则表达式

set_follow_mode:
设定递归模式,F_ANY:该页面上所有链接都会抓取。 F_SAME_DOMAIN和F_SAME_HOST类似。即同一个域名的都会抓取。F_SAME_PATH:同一路径的抓取。例如bag.vancl.com/l1/d3/1.jpg path为l1/d3/1.jpg,则path为l1/d3/*的都会抓取。这里可以根据需要增加自己的递归模式

set_concurrency_level:
设定线程最大数

process_document:
一般需要重写,处理网页内容,提取自己需要的内容。

selenium
可视化界面,抓取自动化,api使用超简单,完全像是自己在操作浏览器。

官方网站:http://www.seleniumhq.org/
python官方网站
http://pypi.python.org/pypi/selenium
webdriver api(很好用,建议多了解一下)
http://www.seleniumhq.org/docs/03_webdriver.jsp

以下是一个抓取凡客网站的例子:

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time

browser = webdriver.Firefox()
browser.get('http://bag.vancl.com/28145-28167-a18568_18571-b1-n3-s1.html#ref=hp-hp-hot-8_1_1-v:n')
elem = browser.find_element_by_name('ch_bag-3-page-next') # Find the search box
time.sleep(1)
print elem.get_attribute("href")
elem.click()

time.sleep(1)
elem = browser.find_element_by_name('ch_bag-3-page-next') # Find the search box
print elem.get_attribute("href")
elem.click()

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
Python笔记(叁)继续学习
Oct 24 Python
web.py获取上传文件名的正确方法
Aug 26 Python
python学习数据结构实例代码
May 11 Python
Python进阶之尾递归的用法实例
Jan 31 Python
使用python语言,比较两个字符串是否相同的实例
Jun 29 Python
python 实现矩阵填充0的例子
Nov 29 Python
Python爬虫库BeautifulSoup的介绍与简单使用实例
Jan 25 Python
Django的ListView超详细用法(含分页paginate)
May 21 Python
Keras官方中文文档:性能评估Metrices详解
Jun 15 Python
基于PyTorch中view的用法说明
Mar 03 Python
对Keras自带Loss Function的深入研究
May 25 Python
pytest实现多进程与多线程运行超好用的插件
Jul 15 Python
python基础教程之循环介绍
Aug 29 #Python
Python中optionParser模块的使用方法实例教程
Aug 29 #Python
python基础教程之缩进介绍
Aug 29 #Python
python基础教程之常用运算符
Aug 29 #Python
python基础教程之序列详解
Aug 29 #Python
Python获取电脑硬件信息及状态的实现方法
Aug 29 #Python
python基础教程之基本数据类型和变量声明介绍
Aug 29 #Python
You might like
PHP重定向与伪静态区别
2017/02/19 PHP
360搜索引擎自动收录php改写方案
2018/04/28 PHP
laravel 使用事件系统统计浏览量的实现
2019/10/16 PHP
javascript SpiderMonkey中的函数序列化如何进行
2012/12/05 Javascript
table行随鼠标移动变色示例
2014/05/07 Javascript
JavaScript+CSS实现的可折叠二级菜单实例
2016/02/29 Javascript
AngularJS入门教程之AngularJS指令
2016/04/18 Javascript
Nodejs中解决cluster模块的多进程如何共享数据问题
2016/11/10 NodeJs
JavaScript初学者必看“new”
2017/06/12 Javascript
ES6中数组array新增方法实例总结
2017/11/07 Javascript
vue多级复杂列表展开/折叠及全选/分组全选实现
2018/11/05 Javascript
微信小程序canvas.drawImage完全显示图片问题的解决
2018/11/30 Javascript
详解小程序之简单登录注册表单验证
2019/05/13 Javascript
微信小程序3D轮播实现代码
2019/09/19 Javascript
Vue如何基于vue-i18n实现多国语言兼容
2020/07/17 Javascript
javascript实现简单页面倒计时
2021/03/02 Javascript
[03:17]DOTA2英雄基础教程 剧毒术士
2013/12/12 DOTA
[03:11]DOTA2上海特锦赛小组赛第一日recap精彩回顾
2016/02/28 DOTA
用Python和MD5实现网站挂马检测程序
2014/03/13 Python
web.py在模板中输出美元符号的方法
2014/08/26 Python
python中的计时器timeit的使用方法
2017/10/20 Python
对python中的iter()函数与next()函数详解
2018/10/18 Python
Python autoescape标签用法解析
2020/01/17 Python
详解Python 函数参数的拆解
2020/09/02 Python
python操作ini类型配置文件的实例教程
2020/10/30 Python
法学毕业生自荐信
2013/11/13 职场文书
2014新年元旦活动策划方案
2014/02/18 职场文书
《秋姑娘的信》教学反思
2014/02/28 职场文书
领导班子自我剖析材料
2014/08/16 职场文书
2015年世界急救日宣传活动方案
2015/05/06 职场文书
给男朋友的道歉短信
2015/05/12 职场文书
初中体育教学随笔
2015/08/15 职场文书
Vue全家桶入门基础教程
2021/05/14 Vue.js
新手入门Jvm-- JVM对象创建与内存分配机制
2021/06/18 Java/Android
mysql优化之query_cache_limit参数说明
2021/07/01 MySQL
使用Python开发贪吃蛇游戏 SnakeGame
2022/04/30 Python