python爬虫常用的模块分析


Posted in Python onAugust 29, 2014

本文对Python爬虫常用的模块做了较为深入的分析,并以实例加以深入说明。分享给大家供大家参考之用。具体分析如下:

creepy模块

某台湾大神开发的,功能简单,能够自动抓取某个网站的所有内容,当然你也可以设定哪些url需要抓。

地址:https://pypi.python.org/pypi/creepy

功能接口:

set_content_type_filter:
设定抓取的content-type(header中的contenttype)。包括text/html

add_url_filter:
过滤url,传入的可以是正则表达式

set_follow_mode:
设定递归模式,F_ANY:该页面上所有链接都会抓取。 F_SAME_DOMAIN和F_SAME_HOST类似。即同一个域名的都会抓取。F_SAME_PATH:同一路径的抓取。例如bag.vancl.com/l1/d3/1.jpg path为l1/d3/1.jpg,则path为l1/d3/*的都会抓取。这里可以根据需要增加自己的递归模式

set_concurrency_level:
设定线程最大数

process_document:
一般需要重写,处理网页内容,提取自己需要的内容。

selenium
可视化界面,抓取自动化,api使用超简单,完全像是自己在操作浏览器。

官方网站:http://www.seleniumhq.org/
python官方网站
http://pypi.python.org/pypi/selenium
webdriver api(很好用,建议多了解一下)
http://www.seleniumhq.org/docs/03_webdriver.jsp

以下是一个抓取凡客网站的例子:

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time

browser = webdriver.Firefox()
browser.get('http://bag.vancl.com/28145-28167-a18568_18571-b1-n3-s1.html#ref=hp-hp-hot-8_1_1-v:n')
elem = browser.find_element_by_name('ch_bag-3-page-next') # Find the search box
time.sleep(1)
print elem.get_attribute("href")
elem.click()

time.sleep(1)
elem = browser.find_element_by_name('ch_bag-3-page-next') # Find the search box
print elem.get_attribute("href")
elem.click()

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
用Python进行基础的函数式编程的教程
Mar 31 Python
python使用nntp读取新闻组内容的方法
May 08 Python
Python中基本的日期时间处理的学习教程
Oct 16 Python
Python如何快速上手? 快速掌握一门新语言的方法
Nov 14 Python
Python使用Pickle库实现读写序列操作示例
Jun 15 Python
python版大富翁源代码分享
Nov 19 Python
对python GUI实现完美进度条的示例详解
Dec 13 Python
nohup后台启动Python脚本,log不刷新的解决方法
Jan 14 Python
Django Rest framework认证组件详细用法
Jul 25 Python
python爬虫模拟浏览器访问-User-Agent过程解析
Dec 28 Python
Python3.7.0 Shell添加清屏快捷键的实现示例
Mar 23 Python
在Ubuntu中安装并配置Pycharm教程的实现方法
Jan 06 Python
python基础教程之循环介绍
Aug 29 #Python
Python中optionParser模块的使用方法实例教程
Aug 29 #Python
python基础教程之缩进介绍
Aug 29 #Python
python基础教程之常用运算符
Aug 29 #Python
python基础教程之序列详解
Aug 29 #Python
Python获取电脑硬件信息及状态的实现方法
Aug 29 #Python
python基础教程之基本数据类型和变量声明介绍
Aug 29 #Python
You might like
PHP使用GIFEncoder类处理gif图片实例
2014/07/01 PHP
Laravel实现定时任务的示例代码
2017/08/10 PHP
PHP中使用mpdf 导出PDF文件的实现方法
2018/10/22 PHP
Avengerls vs KG BO3 第一场2.18
2021/03/10 DOTA
jquery 输入框数字限制插件
2009/11/10 Javascript
锋利的jQuery 要点归纳(三) jQuery中的事件和动画(下:动画篇)
2010/03/24 Javascript
自己动手制作jquery插件之自动添加删除行功能介绍
2011/10/14 Javascript
javascript中直接写php代码的方法
2013/07/31 Javascript
导航跟随滚动条置顶移动示例代码
2013/09/11 Javascript
如何用jquery控制表格奇偶行及活动行颜色
2014/04/20 Javascript
jQuery基础_入门必看知识点
2016/07/04 Javascript
判断js的Array和Object的实现方法
2016/08/29 Javascript
vue双向数据绑定原理探究(附demo)
2017/01/17 Javascript
jQuery中将json数据显示到页面表格的方法
2018/05/27 jQuery
JS遍历JSON数组及获取JSON数组长度操作示例【测试可用】
2018/12/12 Javascript
React 父子组件通信的实现方法
2019/12/05 Javascript
详解vue中v-model和v-bind绑定数据的异同
2020/08/10 Javascript
vue treeselect获取当前选中项的label实例
2020/08/31 Javascript
[05:35]DOTA2英雄梦之声_第13期_拉比克
2014/06/21 DOTA
python 获取文件列表(或是目录例表)
2009/03/25 Python
Python输出9*9乘法表的方法
2015/05/25 Python
各个系统下的Python解释器相关安装方法
2015/10/12 Python
Python2.7基于淘宝接口获取IP地址所在地理位置的方法【测试可用】
2017/06/07 Python
python实现批量修改文件名代码
2017/09/10 Python
微信跳一跳python代码实现
2018/01/05 Python
python 安装教程之Pycharm安装及配置字体主题,换行,自动更新
2020/03/13 Python
仿CSDN Blog返回页面顶部功能实现原理及代码
2013/06/30 HTML / CSS
Chupi官网:在爱尔兰手工制作的订婚、结婚戒指和精美珠宝
2020/09/28 全球购物
大学生收银员求职信分享
2014/01/02 职场文书
运动会通讯稿300字
2014/02/02 职场文书
仓管岗位职责范本
2014/02/08 职场文书
冬季施工防火方案
2014/05/17 职场文书
质量承诺书怎么写
2014/05/24 职场文书
工作作风整顿个人剖析材料
2014/10/11 职场文书
不服劳动仲裁起诉书
2015/05/20 职场文书
OpenStack虚拟机快照和增量备份实现方法
2022/04/04 Servers