python使用scrapy解析js示例


Posted in Python onJanuary 23, 2014
from selenium import selenium
class MySpider(CrawlSpider):
    name = 'cnbeta'
    allowed_domains = ['cnbeta.com']
    start_urls = ['https://3water.com']
    rules = (
        # Extract links matching 'category.php' (but not matching 'subsection.php')
        # and follow links from them (since no callback means follow=True by default).
        Rule(SgmlLinkExtractor(allow=('/articles/.*\.htm', )),
             callback='parse_page', follow=True),
        # Extract links matching 'item.php' and parse them with the spider's method parse_item
    )
    def __init__(self):
        CrawlSpider.__init__(self)
        self.verificationErrors = []
        self.selenium = selenium("localhost", 4444, "*firefox", "https://3water.com")
        self.selenium.start()
    def __del__(self):
        self.selenium.stop()
        print self.verificationErrors
        CrawlSpider.__del__(self)

    def parse_page(self, response):
        self.log('Hi, this is an item page! %s' % response.url)
        sel = Selector(response)
        from webproxy.items import WebproxyItem
        sel = self.selenium
        sel.open(response.url)
        sel.wait_for_page_to_load("30000")
        import time
        time.sleep(2.5)
Python 相关文章推荐
python调用cmd复制文件代码分享
Dec 27 Python
python在windows下实现ping操作并接收返回信息的方法
Mar 20 Python
使用Python中PDB模块中的命令来调试Python代码的教程
Mar 30 Python
Python中方法链的使用方法
Feb 23 Python
python自动发送测试报告邮件功能的实现
Jan 22 Python
python通过txt文件批量安装依赖包的实现步骤
Aug 13 Python
使用Tensorflow实现可视化中间层和卷积层
Jan 24 Python
使用python计算三角形的斜边例子
Apr 15 Python
python plt可视化——打印特殊符号和制作图例代码
Apr 17 Python
python使用建议技巧分享(三)
Aug 18 Python
Pycharm Git 设置方法
Sep 15 Python
python opencv实现直线检测并测出倾斜角度(附源码+注释)
Dec 31 Python
php使用递归与迭代实现快速排序示例
Jan 23 #Python
python实现批量转换文件编码(批转换编码示例)
Jan 23 #Python
python写的一个文本编辑器
Jan 23 #Python
python生成指定长度的随机数密码
Jan 23 #Python
python使用beautifulsoup从爱奇艺网抓取视频播放
Jan 23 #Python
python3使用urllib示例取googletranslate(谷歌翻译)
Jan 23 #Python
pyside写ui界面入门示例
Jan 22 #Python
You might like
PHP的栏目导航程序
2006/10/09 PHP
php中支持多种编码的中文字符串截取函数!
2007/03/20 PHP
比较简单的百度网盘文件直链PHP代码
2013/03/24 PHP
PHP用反撇号执行外部命令
2015/04/14 PHP
PHP搭建大文件切割分块上传功能示例
2017/01/04 PHP
js自带函数备忘 数组
2006/12/29 Javascript
jquery中的sortable排序之后的保存状态的解决方法
2010/01/28 Javascript
jQuery UI 应用不同Theme的办法
2010/09/12 Javascript
JQuery与JSon实现的无刷新分页代码
2011/09/13 Javascript
自己做的模拟模态对话框实现代码
2012/05/23 Javascript
时间戳转换为时间 年月日时间的JS函数
2013/08/19 Javascript
jQuery制作拼图小游戏
2015/01/12 Javascript
jQuery图片加载失败替换默认图片方法汇总
2017/11/29 jQuery
angularjs中$http异步上传Excel文件方法
2018/02/23 Javascript
vue组件jsx语法的具体使用
2018/05/21 Javascript
vue路由事件beforeRouteLeave及组件内定时器的清除方法
2018/09/29 Javascript
three.js实现圆柱体
2018/12/30 Javascript
简单了解前端渐进式框架VUE
2020/07/20 Javascript
JavaScript逻辑运算符相关总结
2020/09/04 Javascript
vue中如何添加百度统计代码
2020/12/19 Vue.js
Element-ui upload上传文件限制的解决方法
2021/01/22 Javascript
[01:08:56]DOTA2-DPC中国联赛 正赛 Magma vs LBZS BO3 第一场 2月7日
2021/03/11 DOTA
Python获取SQLite查询结果表列名的方法
2017/06/21 Python
Python类的继承和多态代码详解
2017/12/27 Python
利用Python批量提取Win10锁屏壁纸实战教程
2018/03/27 Python
python绘制立方体的方法
2018/07/02 Python
Python监控服务器实用工具psutil使用解析
2019/12/19 Python
tensorflow自定义激活函数实例
2020/02/04 Python
python中的unittest框架实例详解
2021/02/05 Python
Linux文件操作命令都有哪些
2016/07/23 面试题
环境卫生标语
2014/06/09 职场文书
简单租房协议书范本
2014/08/20 职场文书
工作散漫检讨书
2014/09/16 职场文书
六年级小学生评语
2014/12/26 职场文书
人民的好儿女观后感
2015/06/18 职场文书
React-vscode使用jsx语法的问题及解决方法
2021/06/21 Javascript