python使用scrapy解析js示例


Posted in Python onJanuary 23, 2014
from selenium import selenium
class MySpider(CrawlSpider):
    name = 'cnbeta'
    allowed_domains = ['cnbeta.com']
    start_urls = ['https://3water.com']
    rules = (
        # Extract links matching 'category.php' (but not matching 'subsection.php')
        # and follow links from them (since no callback means follow=True by default).
        Rule(SgmlLinkExtractor(allow=('/articles/.*\.htm', )),
             callback='parse_page', follow=True),
        # Extract links matching 'item.php' and parse them with the spider's method parse_item
    )
    def __init__(self):
        CrawlSpider.__init__(self)
        self.verificationErrors = []
        self.selenium = selenium("localhost", 4444, "*firefox", "https://3water.com")
        self.selenium.start()
    def __del__(self):
        self.selenium.stop()
        print self.verificationErrors
        CrawlSpider.__del__(self)

    def parse_page(self, response):
        self.log('Hi, this is an item page! %s' % response.url)
        sel = Selector(response)
        from webproxy.items import WebproxyItem
        sel = self.selenium
        sel.open(response.url)
        sel.wait_for_page_to_load("30000")
        import time
        time.sleep(2.5)
Python 相关文章推荐
Python使用代理抓取网站图片(多线程)
Mar 14 Python
爬山算法简介和Python实现实例
Apr 26 Python
python UNIX_TIMESTAMP时间处理方法分析
Apr 18 Python
Python中的Descriptor描述符学习教程
Jun 02 Python
Python的CGIHTTPServer交互实现详解
Feb 08 Python
pycharm远程开发项目的实现步骤
Jan 20 Python
pandas.cut具体使用总结
Jun 24 Python
详解Matplotlib绘图之属性设置
Aug 23 Python
详解numpy矩阵的创建与数据类型
Oct 18 Python
tensorflow没有output结点,存储成pb文件的例子
Jan 04 Python
Python应用实现处理excel数据过程解析
Jun 19 Python
Python利器openpyxl之操作excel表格
Apr 17 Python
php使用递归与迭代实现快速排序示例
Jan 23 #Python
python实现批量转换文件编码(批转换编码示例)
Jan 23 #Python
python写的一个文本编辑器
Jan 23 #Python
python生成指定长度的随机数密码
Jan 23 #Python
python使用beautifulsoup从爱奇艺网抓取视频播放
Jan 23 #Python
python3使用urllib示例取googletranslate(谷歌翻译)
Jan 23 #Python
pyside写ui界面入门示例
Jan 22 #Python
You might like
php中apc缓存使用示例
2013/12/25 PHP
基于preg_match_all采集后数据处理的一点心得笔记(编码转换和正则匹配)
2014/01/31 PHP
PHP curl 抓取AJAX异步内容示例
2014/09/09 PHP
在IE中调用javascript打开Excel的代码(downmoon原作)
2007/04/02 Javascript
Js四则运算函数代码
2012/07/21 Javascript
jQuery实现回车键(Enter)切换文本框焦点的代码实例
2014/05/05 Javascript
js面向对象之公有、私有、静态属性和方法详解
2015/04/17 Javascript
js脚本分页代码分享(7种样式)
2015/08/19 Javascript
bootstrap fileinput完整实例分享
2016/11/08 Javascript
Vue-router结合transition实现app前进后退动画切换效果的实例
2017/10/11 Javascript
浅谈React组件之性能优化
2018/03/02 Javascript
Vue微信项目按需授权登录策略实践思路详解
2018/05/07 Javascript
vue和webpack打包项目相对路径修改的方法
2018/06/15 Javascript
快速解决vue在ios端下点击响应延时的问题
2018/08/27 Javascript
基于Bootstrap和JQuery实现动态打开和关闭tab页的实例代码
2019/06/10 jQuery
JS removeAttribute()方法实现删除元素的某个属性
2021/01/11 Javascript
[03:59]第二届DOTA2亚洲邀请赛选手传记-VGJ.rOtk
2017/04/03 DOTA
在Django框架中伪造捕捉到的URLconf值的方法
2015/07/18 Python
Python实现感知器模型、两层神经网络
2017/12/19 Python
python无限生成不重复(字母,数字,字符)组合的方法
2018/12/04 Python
对python以16进制打印字节数组的方法详解
2019/01/24 Python
Python Opencv实现图像轮廓识别功能
2020/03/23 Python
Django 删除upload_to文件的步骤
2020/03/30 Python
python怎么调用自己的函数
2020/07/01 Python
Keras实现DenseNet结构操作
2020/07/06 Python
Django中日期时间型字段进行年月日时分秒分组统计
2020/11/27 Python
HTML5 canvas标签实现刮刮卡效果
2015/04/24 HTML / CSS
美国时尚在线:Showpo
2017/09/08 全球购物
来自圣地亚哥的实惠太阳镜:Knockaround
2018/08/27 全球购物
Sql面试题
2013/03/20 面试题
OSPF有什么优点?为什么OSPF比RIP收敛快?
2013/02/13 面试题
优秀求职自荐信怎样写
2013/12/18 职场文书
工商管理专业自荐信
2014/06/03 职场文书
学习型家庭事迹材料
2014/12/20 职场文书
单位接收函格式
2015/01/30 职场文书
学生不参加考试检讨书
2015/02/19 职场文书