python使用scrapy解析js示例


Posted in Python onJanuary 23, 2014
from selenium import selenium
class MySpider(CrawlSpider):
    name = 'cnbeta'
    allowed_domains = ['cnbeta.com']
    start_urls = ['https://3water.com']
    rules = (
        # Extract links matching 'category.php' (but not matching 'subsection.php')
        # and follow links from them (since no callback means follow=True by default).
        Rule(SgmlLinkExtractor(allow=('/articles/.*\.htm', )),
             callback='parse_page', follow=True),
        # Extract links matching 'item.php' and parse them with the spider's method parse_item
    )
    def __init__(self):
        CrawlSpider.__init__(self)
        self.verificationErrors = []
        self.selenium = selenium("localhost", 4444, "*firefox", "https://3water.com")
        self.selenium.start()
    def __del__(self):
        self.selenium.stop()
        print self.verificationErrors
        CrawlSpider.__del__(self)

    def parse_page(self, response):
        self.log('Hi, this is an item page! %s' % response.url)
        sel = Selector(response)
        from webproxy.items import WebproxyItem
        sel = self.selenium
        sel.open(response.url)
        sel.wait_for_page_to_load("30000")
        import time
        time.sleep(2.5)
Python 相关文章推荐
Python实现针对给定单链表删除指定节点的方法
Apr 12 Python
python smtplib模块实现发送邮件带附件sendmail
May 22 Python
Python基于聚类算法实现密度聚类(DBSCAN)计算【测试可用】
Dec 26 Python
Python整数对象实现原理详解
Jul 01 Python
python Pillow图像处理方法汇总
Oct 16 Python
Pytorch提取模型特征向量保存至csv的例子
Jan 03 Python
python实现删除列表中某个元素的3种方法
Jan 15 Python
如何验证python安装成功
Jul 06 Python
想学画画?python满足你!
Dec 24 Python
Python3+Django get/post请求实现教程详解
Feb 16 Python
pytorch __init__、forward与__call__的用法小结
Feb 27 Python
解决python 输出到csv 出现多空行的情况
Mar 24 Python
php使用递归与迭代实现快速排序示例
Jan 23 #Python
python实现批量转换文件编码(批转换编码示例)
Jan 23 #Python
python写的一个文本编辑器
Jan 23 #Python
python生成指定长度的随机数密码
Jan 23 #Python
python使用beautifulsoup从爱奇艺网抓取视频播放
Jan 23 #Python
python3使用urllib示例取googletranslate(谷歌翻译)
Jan 23 #Python
pyside写ui界面入门示例
Jan 22 #Python
You might like
高分R级DC动画剧《哈莉·奎茵》第二季正式预告首发
2020/04/09 欧美动漫
php+redis实现多台服务器内网存储session并读取示例
2017/01/12 PHP
JQuery对checkbox操作 (循环获取)
2011/05/20 Javascript
javascript小数四舍五入多种方法实现
2012/12/23 Javascript
js实现右下角可关闭最小化div(可用于展示推荐内容)
2013/06/24 Javascript
一个简单的JS时间控件示例代码(JS时分秒时间控件)
2013/11/22 Javascript
Javascript setInterval的两种调用方法(实例讲解)
2013/11/29 Javascript
jQuery 隐藏和显示 input 默认值示例
2014/06/03 Javascript
javascript动态创建表格及添加数据实例详解
2015/05/13 Javascript
JavaScript学习小结(7)之JS RegExp
2015/11/29 Javascript
深入理解javascript作用域第二篇之词法作用域和动态作用域
2016/07/24 Javascript
JavaScript实现页面无操作倒计时退出
2016/10/22 Javascript
基于JS代码实现简单易用的倒计时 x 天 x 时 x 分 x 秒效果
2017/07/13 Javascript
jQuery中 DOM节点操作方法大全
2017/10/12 jQuery
[22:59]VGJ.S vs VG 2018国际邀请赛小组赛BO2 第二场 8.16
2018/08/17 DOTA
python实现淘宝秒杀聚划算抢购自动提醒源码
2020/06/23 Python
浅谈django的render函数的参数问题
2018/10/16 Python
Python Tkinter 简单登录界面的实现
2019/06/14 Python
pyqt5 删除layout中的所有widget方法
2019/06/25 Python
详解Pandas之容易让人混淆的行选择和列选择
2019/07/10 Python
在pytorch中查看可训练参数的例子
2019/08/18 Python
Django框架序列化与反序列化操作详解
2019/11/01 Python
把vgg-face.mat权重迁移到pytorch模型示例
2019/12/27 Python
Django中使用Json返回数据的实现方法
2020/06/03 Python
python中如何打包用户自定义模块
2020/09/23 Python
POS解决方案:MUNBYN(热敏打印机、条形码扫描仪)
2020/06/09 全球购物
销售主管岗位职责
2014/02/08 职场文书
法人代表任命书范本
2014/06/05 职场文书
中职招生先进个人材料
2014/08/31 职场文书
乡镇挂职心得体会
2014/09/04 职场文书
先进事迹材料范文
2014/12/29 职场文书
爱的承诺书
2015/01/20 职场文书
2015年员工工作表现评语
2015/03/25 职场文书
张思德观后感
2015/06/09 职场文书
Apache Pulsar集群搭建部署详细过程
2022/02/12 Servers
hive数据仓库新增字段方法
2022/06/25 数据库