python爬虫常用的模块分析


Posted in Python onAugust 29, 2014

本文对Python爬虫常用的模块做了较为深入的分析,并以实例加以深入说明。分享给大家供大家参考之用。具体分析如下:

creepy模块

某台湾大神开发的,功能简单,能够自动抓取某个网站的所有内容,当然你也可以设定哪些url需要抓。

地址:https://pypi.python.org/pypi/creepy

功能接口:

set_content_type_filter:
设定抓取的content-type(header中的contenttype)。包括text/html

add_url_filter:
过滤url,传入的可以是正则表达式

set_follow_mode:
设定递归模式,F_ANY:该页面上所有链接都会抓取。 F_SAME_DOMAIN和F_SAME_HOST类似。即同一个域名的都会抓取。F_SAME_PATH:同一路径的抓取。例如bag.vancl.com/l1/d3/1.jpg path为l1/d3/1.jpg,则path为l1/d3/*的都会抓取。这里可以根据需要增加自己的递归模式

set_concurrency_level:
设定线程最大数

process_document:
一般需要重写,处理网页内容,提取自己需要的内容。

selenium
可视化界面,抓取自动化,api使用超简单,完全像是自己在操作浏览器。

官方网站:http://www.seleniumhq.org/
python官方网站
http://pypi.python.org/pypi/selenium
webdriver api(很好用,建议多了解一下)
http://www.seleniumhq.org/docs/03_webdriver.jsp

以下是一个抓取凡客网站的例子:

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time

browser = webdriver.Firefox()
browser.get('http://bag.vancl.com/28145-28167-a18568_18571-b1-n3-s1.html#ref=hp-hp-hot-8_1_1-v:n')
elem = browser.find_element_by_name('ch_bag-3-page-next') # Find the search box
time.sleep(1)
print elem.get_attribute("href")
elem.click()

time.sleep(1)
elem = browser.find_element_by_name('ch_bag-3-page-next') # Find the search box
print elem.get_attribute("href")
elem.click()

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
Python实现的简单算术游戏实例
May 26 Python
Python实现pdf文档转txt的方法示例
Jan 19 Python
python使用Tkinter实现在线音乐播放器
Jan 30 Python
Python常见工厂函数用法示例
Mar 21 Python
Python3.4 tkinter,PIL图片转换
Jun 21 Python
python实现京东秒杀功能
Jul 30 Python
python3 unicode列表转换为中文的实例
Oct 26 Python
python 求某条线上特定x值或y值的点坐标方法
Jul 09 Python
使用Python进行中文繁简转换的实现代码
Oct 18 Python
pytorch AvgPool2d函数使用详解
Jan 03 Python
python中复数的共轭复数知识点总结
Dec 06 Python
Python使用pandas导入xlsx格式的excel文件内容操作代码
Dec 24 Python
python基础教程之循环介绍
Aug 29 #Python
Python中optionParser模块的使用方法实例教程
Aug 29 #Python
python基础教程之缩进介绍
Aug 29 #Python
python基础教程之常用运算符
Aug 29 #Python
python基础教程之序列详解
Aug 29 #Python
Python获取电脑硬件信息及状态的实现方法
Aug 29 #Python
python基础教程之基本数据类型和变量声明介绍
Aug 29 #Python
You might like
PHP伪静态写法附代码
2008/06/20 PHP
PHP常见数组函数用法小结
2016/03/21 PHP
JavaScript 学习笔记(十一)
2010/01/19 Javascript
jQuery+ajax实现顶一下,踩一下效果
2010/07/17 Javascript
window.addEventListener来解决让一个js事件执行多个函数
2012/12/26 Javascript
深入理解JavaScript系列(39):设计模式之适配器模式详解
2015/03/04 Javascript
使用javascript提交form表单方法汇总
2015/06/25 Javascript
基于JQuery实现仿网易邮箱全屏动感滚动插件fullPage
2015/09/20 Javascript
jquery显示隐藏元素的实现代码
2016/05/19 Javascript
基于Vue2的移动端开发环境搭建详解
2016/11/03 Javascript
JS实现随机颜色的3种方法与颜色格式的转化
2017/01/05 Javascript
JQuery validate 验证一个单独的表单元素实例
2017/02/17 Javascript
Angular在一个页面中使用两个ng-app的方法(二)
2017/02/20 Javascript
JS简单实现父子窗口传值功能示例【未使用iframe框架】
2017/09/20 Javascript
layui之select的option叠加问题的解决方法
2018/03/08 Javascript
Vue中在新窗口打开页面及Vue-router的使用
2018/06/13 Javascript
vue 配置多页面应用的示例代码
2018/10/22 Javascript
nodejs实现的http、https 请求封装操作示例
2020/02/06 NodeJs
js实现右键弹出自定义菜单
2020/09/08 Javascript
[52:44]VGJ.T vs infamous Supermajor小组赛D组败者组第一轮 BO3 第一场 6.3
2018/06/04 DOTA
pycharm 使用心得(七)一些实用功能介绍
2014/06/06 Python
python通过colorama模块在控制台输出彩色文字的方法
2015/03/19 Python
详解Python中的type()方法的使用
2015/05/21 Python
Python使用pickle模块报错EOFError Ran out of input的解决方法
2018/08/16 Python
python3.6使用pickle序列化class的方法
2018/10/22 Python
python爬虫的一个常见简单js反爬详解
2019/07/09 Python
关于Numpy中的行向量和列向量详解
2019/11/30 Python
Python爬虫获取页面所有URL链接过程详解
2020/06/04 Python
DC Shoes官网:美国滑板鞋和服饰品牌
2017/09/03 全球购物
健身场所或家用健身设备:Life Fitness
2017/11/01 全球购物
Brora官网:英国领先的羊绒服装品牌
2019/08/28 全球购物
Happy Plugs官网:瑞典无线耳机品牌
2020/07/16 全球购物
你经历的项目中的SCM配置项主要有哪些?什么是配置项?
2013/11/04 面试题
房产委托公证书样本
2014/04/04 职场文书
高中班长竞选稿
2015/11/20 职场文书
初三数学教学反思
2016/02/17 职场文书