python使用scrapy解析js示例


Posted in Python onJanuary 23, 2014
from selenium import selenium
class MySpider(CrawlSpider):
    name = 'cnbeta'
    allowed_domains = ['cnbeta.com']
    start_urls = ['https://3water.com']
    rules = (
        # Extract links matching 'category.php' (but not matching 'subsection.php')
        # and follow links from them (since no callback means follow=True by default).
        Rule(SgmlLinkExtractor(allow=('/articles/.*\.htm', )),
             callback='parse_page', follow=True),
        # Extract links matching 'item.php' and parse them with the spider's method parse_item
    )
    def __init__(self):
        CrawlSpider.__init__(self)
        self.verificationErrors = []
        self.selenium = selenium("localhost", 4444, "*firefox", "https://3water.com")
        self.selenium.start()
    def __del__(self):
        self.selenium.stop()
        print self.verificationErrors
        CrawlSpider.__del__(self)

    def parse_page(self, response):
        self.log('Hi, this is an item page! %s' % response.url)
        sel = Selector(response)
        from webproxy.items import WebproxyItem
        sel = self.selenium
        sel.open(response.url)
        sel.wait_for_page_to_load("30000")
        import time
        time.sleep(2.5)
Python 相关文章推荐
python中threading超线程用法实例分析
May 16 Python
浅析Python的Django框架中的Memcached
Jul 23 Python
python中实现数组和列表读取一列的方法
Apr 03 Python
wxPython实现窗口用图片做背景
Apr 25 Python
Python实现的knn算法示例
Jun 14 Python
python+pygame实现坦克大战
Sep 10 Python
基于python操作ES实例详解
Nov 16 Python
keras 权重保存和权重载入方式
May 21 Python
Python预测2020高考分数和录取情况
Jul 08 Python
Selenium及python实现滚动操作多种方法
Jul 21 Python
Python 转移文件至云对象存储的方法
Feb 07 Python
Python实现的扫码工具居然这么好用!
Jun 07 Python
php使用递归与迭代实现快速排序示例
Jan 23 #Python
python实现批量转换文件编码(批转换编码示例)
Jan 23 #Python
python写的一个文本编辑器
Jan 23 #Python
python生成指定长度的随机数密码
Jan 23 #Python
python使用beautifulsoup从爱奇艺网抓取视频播放
Jan 23 #Python
python3使用urllib示例取googletranslate(谷歌翻译)
Jan 23 #Python
pyside写ui界面入门示例
Jan 22 #Python
You might like
php控制文件下载速度的方法
2015/03/24 PHP
PHP中如何防止外部恶意提交调用ajax接口
2016/04/11 PHP
JS操作XML中DTD介绍及使用方法分析
2019/07/04 PHP
PHP设计模式之装饰器(装饰者)模式(Decorator)入门与应用详解
2019/12/13 PHP
国外的为初学者写的JavaScript教程
2008/06/09 Javascript
Jquery ajaxsubmit上传图片实现代码
2010/11/04 Javascript
jquery入门—访问DOM对象方法
2013/01/07 Javascript
捕获键盘事件(且兼容各浏览器)
2013/07/03 Javascript
jquery中对于批量deferred的处理方法
2014/01/22 Javascript
javascript正则表达式之search()用法实例
2015/01/19 Javascript
jQuery插件开发的五种形态小结
2015/03/04 Javascript
jQuery实现高亮显示网页关键词的方法
2015/08/07 Javascript
JavaScript+Java实现HTML页面转为PDF文件保存的方法
2016/05/30 Javascript
Vue2.0用 watch 观察 prop 变化(不触发)
2017/09/08 Javascript
深入浅析javascript继承体系
2017/10/23 Javascript
mpvue构建小程序的方法(步骤+地址)
2018/05/22 Javascript
微信小程序页面间值传递的两种方法
2018/11/26 Javascript
微信小程序视图控件与bindtap之间的问题的解决
2019/04/08 Javascript
js 实现ajax发送步骤过程详解
2019/07/25 Javascript
JavaScript如何实现监听键盘输入和鼠标监点击
2020/07/20 Javascript
初学python数组的处理代码
2011/01/04 Python
Python进行数据科学工作的简单入门教程
2015/04/01 Python
Flask框架的学习指南之制作简单blog系统
2016/11/20 Python
python扫描proxy并获取可用代理ip的实例
2017/08/07 Python
Python中的相关分析correlation analysis的实现
2019/08/29 Python
关于python中plt.hist参数的使用详解
2019/11/28 Python
Python Switch Case三种实现方法代码实例
2020/06/18 Python
python 带时区的日期格式化操作
2020/10/23 Python
matplotlib 范围选区(SpanSelector)的使用
2021/02/24 Python
美国大城市最热门旅游景点门票:CityPASS
2016/12/16 全球购物
怎样创建、运行java程序
2014/08/01 面试题
小学生演讲稿
2014/01/12 职场文书
2015年医务人员医德医风自我评价
2015/03/03 职场文书
PHP中->和=>的意思
2021/03/31 PHP
Python中的xlrd模块使用整理
2021/06/15 Python
MySQL里面的子查询的基本使用
2021/08/02 MySQL