编程 Python

python爬虫常用的模块分析

Posted in Python onAugust 29, 2014

本文对Python爬虫常用的模块做了较为深入的分析，并以实例加以深入说明。分享给大家供大家参考之用。具体分析如下：

creepy模块

某台湾大神开发的，功能简单，能够自动抓取某个网站的所有内容，当然你也可以设定哪些url需要抓。

地址：https://pypi.python.org/pypi/creepy

功能接口：

set_content_type_filter:
设定抓取的content-type（header中的contenttype）。包括text/html

add_url_filter：
过滤url，传入的可以是正则表达式

set_follow_mode：
设定递归模式，F_ANY：该页面上所有链接都会抓取。 F_SAME_DOMAIN和F_SAME_HOST类似。即同一个域名的都会抓取。F_SAME_PATH：同一路径的抓取。例如bag.vancl.com/l1/d3/1.jpg path为l1/d3/1.jpg，则path为l1/d3/*的都会抓取。这里可以根据需要增加自己的递归模式

set_concurrency_level：
设定线程最大数

process_document：
一般需要重写，处理网页内容，提取自己需要的内容。

selenium
可视化界面，抓取自动化，api使用超简单，完全像是自己在操作浏览器。

官方网站：http://www.seleniumhq.org/
python官方网站
http://pypi.python.org/pypi/selenium
webdriver api（很好用，建议多了解一下）
http://www.seleniumhq.org/docs/03_webdriver.jsp

以下是一个抓取凡客网站的例子：

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time

browser = webdriver.Firefox()
browser.get('http://bag.vancl.com/28145-28167-a18568_18571-b1-n3-s1.html#ref=hp-hp-hot-8_1_1-v:n')
elem = browser.find_element_by_name('ch_bag-3-page-next') # Find the search box
time.sleep(1)
print elem.get_attribute("href")
elem.click()

time.sleep(1)
elem = browser.find_element_by_name('ch_bag-3-page-next') # Find the search box
print elem.get_attribute("href")
elem.click()

希望本文所述对大家的Python程序设计有所帮助。

python爬虫常用的模块分析

- Author -

shichen2014

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python笔记（叁）继续学习

Oct 24 Python

web.py获取上传文件名的正确方法

Aug 26 Python

python学习数据结构实例代码

May 11 Python

Python进阶之尾递归的用法实例

Jan 31 Python

使用python语言,比较两个字符串是否相同的实例

Jun 29 Python

python 实现矩阵填充0的例子

Nov 29 Python

Python爬虫库BeautifulSoup的介绍与简单使用实例

Jan 25 Python

Django的ListView超详细用法(含分页paginate)

May 21 Python

Keras官方中文文档:性能评估Metrices详解

Jun 15 Python

基于PyTorch中view的用法说明

Mar 03 Python

对Keras自带Loss Function的深入研究

May 25 Python

pytest实现多进程与多线程运行超好用的插件

Jul 15 Python

python基础教程之循环介绍

Aug 29 #Python

Python中optionParser模块的使用方法实例教程

Aug 29 #Python

python基础教程之缩进介绍

Aug 29 #Python

python基础教程之常用运算符

Aug 29 #Python

python基础教程之序列详解

Aug 29 #Python

Python获取电脑硬件信息及状态的实现方法

Aug 29 #Python

python基础教程之基本数据类型和变量声明介绍

Aug 29 #Python

You might like

PHP重定向与伪静态区别

2017/02/19 PHP

360搜索引擎自动收录php改写方案

2018/04/28 PHP

laravel 使用事件系统统计浏览量的实现

2019/10/16 PHP

javascript SpiderMonkey中的函数序列化如何进行

2012/12/05 Javascript

table行随鼠标移动变色示例

2014/05/07 Javascript

JavaScript+CSS实现的可折叠二级菜单实例

2016/02/29 Javascript

AngularJS入门教程之AngularJS指令

2016/04/18 Javascript

Nodejs中解决cluster模块的多进程如何共享数据问题

2016/11/10 NodeJs

JavaScript初学者必看“new”

2017/06/12 Javascript

ES6中数组array新增方法实例总结

2017/11/07 Javascript

vue多级复杂列表展开/折叠及全选/分组全选实现

2018/11/05 Javascript

微信小程序canvas.drawImage完全显示图片问题的解决

2018/11/30 Javascript

详解小程序之简单登录注册表单验证

2019/05/13 Javascript

微信小程序3D轮播实现代码

2019/09/19 Javascript

Vue如何基于vue-i18n实现多国语言兼容

2020/07/17 Javascript

javascript实现简单页面倒计时

2021/03/02 Javascript

[03:17]DOTA2英雄基础教程剧毒术士

2013/12/12 DOTA

[03:11]DOTA2上海特锦赛小组赛第一日recap精彩回顾

2016/02/28 DOTA

用Python和MD5实现网站挂马检测程序

2014/03/13 Python

web.py在模板中输出美元符号的方法

2014/08/26 Python

python中的计时器timeit的使用方法

2017/10/20 Python

对python中的iter()函数与next()函数详解

2018/10/18 Python

Python autoescape标签用法解析

2020/01/17 Python

详解Python 函数参数的拆解

2020/09/02 Python

python操作ini类型配置文件的实例教程

2020/10/30 Python

法学毕业生自荐信

2013/11/13 职场文书

2014新年元旦活动策划方案

2014/02/18 职场文书

《秋姑娘的信》教学反思

2014/02/28 职场文书

领导班子自我剖析材料

2014/08/16 职场文书

2015年世界急救日宣传活动方案

2015/05/06 职场文书

给男朋友的道歉短信

2015/05/12 职场文书

初中体育教学随笔

2015/08/15 职场文书

Vue全家桶入门基础教程

2021/05/14 Vue.js

新手入门Jvm-- JVM对象创建与内存分配机制

2021/06/18 Java/Android

mysql优化之query_cache_limit参数说明

2021/07/01 MySQL

使用Python开发贪吃蛇游戏 SnakeGame

2022/04/30 Python