python爬虫常用的模块分析


Posted in Python onAugust 29, 2014

本文对Python爬虫常用的模块做了较为深入的分析,并以实例加以深入说明。分享给大家供大家参考之用。具体分析如下:

creepy模块

某台湾大神开发的,功能简单,能够自动抓取某个网站的所有内容,当然你也可以设定哪些url需要抓。

地址:https://pypi.python.org/pypi/creepy

功能接口:

set_content_type_filter:
设定抓取的content-type(header中的contenttype)。包括text/html

add_url_filter:
过滤url,传入的可以是正则表达式

set_follow_mode:
设定递归模式,F_ANY:该页面上所有链接都会抓取。 F_SAME_DOMAIN和F_SAME_HOST类似。即同一个域名的都会抓取。F_SAME_PATH:同一路径的抓取。例如bag.vancl.com/l1/d3/1.jpg path为l1/d3/1.jpg,则path为l1/d3/*的都会抓取。这里可以根据需要增加自己的递归模式

set_concurrency_level:
设定线程最大数

process_document:
一般需要重写,处理网页内容,提取自己需要的内容。

selenium
可视化界面,抓取自动化,api使用超简单,完全像是自己在操作浏览器。

官方网站:http://www.seleniumhq.org/
python官方网站
http://pypi.python.org/pypi/selenium
webdriver api(很好用,建议多了解一下)
http://www.seleniumhq.org/docs/03_webdriver.jsp

以下是一个抓取凡客网站的例子:

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time

browser = webdriver.Firefox()
browser.get('http://bag.vancl.com/28145-28167-a18568_18571-b1-n3-s1.html#ref=hp-hp-hot-8_1_1-v:n')
elem = browser.find_element_by_name('ch_bag-3-page-next') # Find the search box
time.sleep(1)
print elem.get_attribute("href")
elem.click()

time.sleep(1)
elem = browser.find_element_by_name('ch_bag-3-page-next') # Find the search box
print elem.get_attribute("href")
elem.click()

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
python解析json实例方法
Nov 19 Python
python中list循环语句用法实例
Nov 10 Python
python通过文件头判断文件类型
Oct 30 Python
Python中绑定与未绑定的类方法用法分析
Apr 29 Python
Python DataFrame设置/更改列表字段/元素类型的方法
Jun 09 Python
Python补齐字符串长度的实例
Nov 15 Python
在Python中利用pickle保存变量的实例
Dec 30 Python
python GUI框架pyqt5 对图片进行流式布局的方法(瀑布流flowlayout)
Mar 12 Python
django 解决model中类写不到数据库中,数据库无此字段的问题
May 20 Python
Python Tornado核心及相关原理详解
Jun 24 Python
3分钟看懂Python后端必须知道的Django的信号机制
Jul 26 Python
Pycharm连接gitlab实现过程图解
Sep 01 Python
python基础教程之循环介绍
Aug 29 #Python
Python中optionParser模块的使用方法实例教程
Aug 29 #Python
python基础教程之缩进介绍
Aug 29 #Python
python基础教程之常用运算符
Aug 29 #Python
python基础教程之序列详解
Aug 29 #Python
Python获取电脑硬件信息及状态的实现方法
Aug 29 #Python
python基础教程之基本数据类型和变量声明介绍
Aug 29 #Python
You might like
php 函数使用方法与函数定义方法
2010/05/09 PHP
PHP输出数组中重名的元素的几种处理方法
2012/09/05 PHP
AutoSave/自动存储功能实现
2007/03/24 Javascript
jQuery 选择器理解
2010/03/16 Javascript
js如何取消事件冒泡
2013/09/23 Javascript
将两个div左右并列显示并实现点击标题切换内容
2013/10/22 Javascript
jquery实现的导航固定效果
2014/04/28 Javascript
用原生JS获取CLASS对象(很简单实用)
2014/10/15 Javascript
倾力总结40条常见的移动端Web页面问题解决方案
2016/05/24 Javascript
sencha ext js 6 快速入门(必看)
2016/06/01 Javascript
jQuery实现订单提交页发送短信功能前端处理方法
2016/07/04 Javascript
jQuery获取attr()与prop()属性值的方法及区别介绍
2016/07/06 Javascript
AngularJS基础 ng-cloak 指令简单示例
2016/08/01 Javascript
js canvas仿支付宝芝麻信用分仪表盘
2016/11/16 Javascript
jquery Easyui Datagrid实现批量操作(编辑,删除,添加)
2017/02/20 Javascript
vue v-model表单控件绑定详解
2017/05/17 Javascript
Node.js中环境变量process.env的一些事详解
2017/10/26 Javascript
Angular2的管道Pipe的使用方法
2017/11/07 Javascript
Vue中render函数的使用方法
2018/01/31 Javascript
vue3.0 CLI - 2.4 - 新组件 Forms.vue 中学习表单
2018/09/14 Javascript
Nodejs把接收图片base64格式保存为文件存储到服务器上
2018/09/26 NodeJs
Python实现的自定义多线程多进程类示例
2018/03/23 Python
Pycharm设置界面全黑的方法
2018/05/23 Python
更改Python的pip install 默认安装依赖路径方法详解
2018/10/27 Python
python爬虫之urllib库常用方法用法总结大全
2018/11/14 Python
通过shell+python实现企业微信预警
2019/03/07 Python
HTML5之HTML元素扩展(下)—增强的Form表单元素值得关注
2013/01/31 HTML / CSS
HTML5中判断用户是否正在浏览页面的方法
2014/05/03 HTML / CSS
微观物理专业自荐信
2014/01/26 职场文书
数学国培研修感言
2014/02/13 职场文书
给学校建议书范文
2014/05/13 职场文书
物业接待员岗位职责
2015/04/15 职场文书
2015年禁毒工作总结
2015/04/30 职场文书
公务员学习中国梦心得体会
2016/01/05 职场文书
Python基础之变量的相关知识总结
2021/06/23 Python
阿里云k8s服务升级时502错误 springboot项目应用
2022/04/09 Servers