python使用scrapy解析js示例


Posted in Python onJanuary 23, 2014
from selenium import selenium
class MySpider(CrawlSpider):
    name = 'cnbeta'
    allowed_domains = ['cnbeta.com']
    start_urls = ['https://3water.com']
    rules = (
        # Extract links matching 'category.php' (but not matching 'subsection.php')
        # and follow links from them (since no callback means follow=True by default).
        Rule(SgmlLinkExtractor(allow=('/articles/.*\.htm', )),
             callback='parse_page', follow=True),
        # Extract links matching 'item.php' and parse them with the spider's method parse_item
    )
    def __init__(self):
        CrawlSpider.__init__(self)
        self.verificationErrors = []
        self.selenium = selenium("localhost", 4444, "*firefox", "https://3water.com")
        self.selenium.start()
    def __del__(self):
        self.selenium.stop()
        print self.verificationErrors
        CrawlSpider.__del__(self)

    def parse_page(self, response):
        self.log('Hi, this is an item page! %s' % response.url)
        sel = Selector(response)
        from webproxy.items import WebproxyItem
        sel = self.selenium
        sel.open(response.url)
        sel.wait_for_page_to_load("30000")
        import time
        time.sleep(2.5)
Python 相关文章推荐
python 提取文件的小程序
Jul 29 Python
Python多进程同步Lock、Semaphore、Event实例
Nov 21 Python
python获得两个数组交集、并集、差集的方法
Mar 27 Python
详解Python自建logging模块
Jan 29 Python
Python 中如何实现参数化测试的方法示例
Dec 10 Python
Python高阶函数、常用内置函数用法实例分析
Dec 26 Python
flask框架url与重定向操作实例详解
Jan 25 Python
Python 实现将大图切片成小图,将小图组合成大图的例子
Mar 14 Python
pyinstaller将含有多个py文件的python程序做成exe
Apr 29 Python
Python pymysql模块安装并操作过程解析
Oct 13 Python
使用AJAX和Django获取数据的方法实例
Oct 25 Python
python实现文件分片上传的接口自动化
Nov 19 Python
php使用递归与迭代实现快速排序示例
Jan 23 #Python
python实现批量转换文件编码(批转换编码示例)
Jan 23 #Python
python写的一个文本编辑器
Jan 23 #Python
python生成指定长度的随机数密码
Jan 23 #Python
python使用beautifulsoup从爱奇艺网抓取视频播放
Jan 23 #Python
python3使用urllib示例取googletranslate(谷歌翻译)
Jan 23 #Python
pyside写ui界面入门示例
Jan 22 #Python
You might like
推荐文章系统(一)
2006/10/09 PHP
discuz图片顺序混乱解决方案
2015/07/29 PHP
php rmdir使用递归函数删除非空目录实例详解
2016/10/20 PHP
通过源码解析Laravel的依赖注入
2018/01/22 PHP
javascript 学习之旅 (2)
2009/02/05 Javascript
基于jQuery的左右滚动实现代码
2010/12/03 Javascript
获取body标签的两种方法
2011/10/13 Javascript
javascript学习笔记(十九) 节点的操作实现代码
2012/06/20 Javascript
自定义jQuery选项卡插件实例
2013/03/27 Javascript
Jquery中LigerUi的弹出编辑框(实现方法)
2013/07/09 Javascript
JavaScript实现在页面间传值的方法
2015/04/07 Javascript
javascript实现页面刷新时自动清空表单并选中的方法
2015/07/18 Javascript
JS中mouseover和mouseout多次触发问题如何解决
2016/06/06 Javascript
JavaScript比较当前时间是否在指定时间段内的方法
2016/08/02 Javascript
[Bootstrap-插件使用]Jcrop+fileinput组合实现头像上传功能实例代码
2016/12/20 Javascript
jQuery中的deferred使用方法
2017/03/27 jQuery
JavaScript中各数制转换全面总结
2017/08/21 Javascript
基于ES6 Array.of的用法(实例讲解)
2017/09/05 Javascript
如何在vue中使用ts的示例代码
2018/02/28 Javascript
vue中的mvvm模式讲解
2019/01/31 Javascript
React通过redux-persist持久化数据存储的方法示例
2019/02/14 Javascript
vue.js封装switch开关组件的操作
2020/10/26 Javascript
python基础教程之分支、循环简单用法
2016/06/16 Python
Python首次安装后运行报错(0xc000007b)的解决方法
2016/10/18 Python
Apache,wsgi,django 程序部署配置方法详解
2019/07/01 Python
解决Python中pandas读取*.csv文件出现编码问题
2019/07/12 Python
python django model联合主键的例子
2019/08/06 Python
python实现吃苹果小游戏
2020/03/21 Python
Python3 ffmpeg视频转换工具使用方法解析
2020/08/10 Python
DJI大疆德国官方商城:大疆无人机
2018/09/01 全球购物
软件测试工程师笔试题带答案
2015/03/27 面试题
小学生打架检讨书
2014/01/26 职场文书
个园导游词
2015/02/04 职场文书
校园广播稿范文
2015/08/19 职场文书
Vue实现动态查询规则生成组件
2021/05/27 Vue.js
MYSQL 运算符总结
2021/11/11 MySQL