python爬虫常用的模块分析


Posted in Python onAugust 29, 2014

本文对Python爬虫常用的模块做了较为深入的分析,并以实例加以深入说明。分享给大家供大家参考之用。具体分析如下:

creepy模块

某台湾大神开发的,功能简单,能够自动抓取某个网站的所有内容,当然你也可以设定哪些url需要抓。

地址:https://pypi.python.org/pypi/creepy

功能接口:

set_content_type_filter:
设定抓取的content-type(header中的contenttype)。包括text/html

add_url_filter:
过滤url,传入的可以是正则表达式

set_follow_mode:
设定递归模式,F_ANY:该页面上所有链接都会抓取。 F_SAME_DOMAIN和F_SAME_HOST类似。即同一个域名的都会抓取。F_SAME_PATH:同一路径的抓取。例如bag.vancl.com/l1/d3/1.jpg path为l1/d3/1.jpg,则path为l1/d3/*的都会抓取。这里可以根据需要增加自己的递归模式

set_concurrency_level:
设定线程最大数

process_document:
一般需要重写,处理网页内容,提取自己需要的内容。

selenium
可视化界面,抓取自动化,api使用超简单,完全像是自己在操作浏览器。

官方网站:http://www.seleniumhq.org/
python官方网站
http://pypi.python.org/pypi/selenium
webdriver api(很好用,建议多了解一下)
http://www.seleniumhq.org/docs/03_webdriver.jsp

以下是一个抓取凡客网站的例子:

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time

browser = webdriver.Firefox()
browser.get('http://bag.vancl.com/28145-28167-a18568_18571-b1-n3-s1.html#ref=hp-hp-hot-8_1_1-v:n')
elem = browser.find_element_by_name('ch_bag-3-page-next') # Find the search box
time.sleep(1)
print elem.get_attribute("href")
elem.click()

time.sleep(1)
elem = browser.find_element_by_name('ch_bag-3-page-next') # Find the search box
print elem.get_attribute("href")
elem.click()

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
重命名批处理python脚本
Apr 05 Python
Python数据类型详解(四)字典:dict
May 12 Python
深入浅析Python2.x和3.x版本的主要区别
Nov 30 Python
使用Python横向合并excel文件的实例
Dec 11 Python
python 对多个csv文件分别进行处理的方法
Jan 07 Python
Python父目录、子目录的相互调用方法
Feb 16 Python
Pytest mark使用实例及原理解析
Feb 22 Python
解决import tensorflow as tf 出错的原因
Apr 16 Python
Python3自定义json逐层解析器代码
May 11 Python
Python+OpenCV图像处理——打印图片属性、设置存储路径、调用摄像头
Oct 22 Python
python如何写个俄罗斯方块
Nov 06 Python
Python如何让字典保持有序排列
Apr 29 Python
python基础教程之循环介绍
Aug 29 #Python
Python中optionParser模块的使用方法实例教程
Aug 29 #Python
python基础教程之缩进介绍
Aug 29 #Python
python基础教程之常用运算符
Aug 29 #Python
python基础教程之序列详解
Aug 29 #Python
Python获取电脑硬件信息及状态的实现方法
Aug 29 #Python
python基础教程之基本数据类型和变量声明介绍
Aug 29 #Python
You might like
mysql 全文搜索 技巧
2007/04/27 PHP
限制ckeditor上传图片文件大小的方法
2013/11/15 PHP
php验证是否是md5编码的简单代码
2014/04/01 PHP
使用PHP函数scandir排除特定目录
2014/06/12 PHP
jQuery向下滚动即时加载内容实现的瀑布流效果
2016/01/07 PHP
laravel orm 关联条件查询代码
2019/10/21 PHP
php中数组最简单的使用方法
2020/12/27 PHP
js中巧用cssText属性批量操作样式
2011/03/13 Javascript
js根据给定的日期计算当月有多少天实现思路及代码
2013/02/25 Javascript
瀑布流布局并自动加载实现代码
2013/03/12 Javascript
关于js数组去重的问题小结
2014/01/24 Javascript
NodeJS学习笔记之Connect中间件模块(二)
2015/01/27 NodeJs
浅谈JavaScript中null和undefined
2015/07/09 Javascript
js图片切换具体实现代码
2016/10/13 Javascript
DataTables添加额外的查询参数和删除columns等无用参数实例
2017/07/04 Javascript
ES6 javascript中class类的get与set用法实例分析
2017/10/30 Javascript
详解Chai.js断言库API中文文档
2018/01/31 Javascript
实例详解ztree在vue项目中使用并且带有搜索功能
2018/08/24 Javascript
详解webpack打包后如何调试的方法步骤
2018/11/07 Javascript
小程序实现层叠卡片滑动效果
2019/08/26 Javascript
js绘制一条直线并旋转45度
2020/08/21 Javascript
Python中的作用域规则详解
2015/01/30 Python
python实现RSA加密(解密)算法
2016/02/17 Python
Python中操作mysql的pymysql模块详解
2016/09/13 Python
matplotlib命令与格式之tick坐标轴日期格式(设置日期主副刻度)
2019/08/06 Python
python中bytes和str类型的区别
2019/10/21 Python
python groupby 函数 as_index详解
2019/12/16 Python
python使用建议技巧分享(三)
2020/08/18 Python
美国生鲜及杂货电商:FreshDirect
2018/01/29 全球购物
建筑工程自我鉴定
2013/10/18 职场文书
建筑人员岗位职责
2013/12/25 职场文书
市级三好学生事迹材料
2014/08/27 职场文书
公司离职证明范本(汇总)
2014/09/10 职场文书
2019行政前台转正申请书范文3篇
2019/08/15 职场文书
python自动化调用百度api解决验证码
2021/04/13 Python
15个值得收藏的JavaScript函数
2021/09/15 Javascript