python使用scrapy解析js示例


Posted in Python onJanuary 23, 2014
from selenium import selenium
class MySpider(CrawlSpider):
    name = 'cnbeta'
    allowed_domains = ['cnbeta.com']
    start_urls = ['https://3water.com']
    rules = (
        # Extract links matching 'category.php' (but not matching 'subsection.php')
        # and follow links from them (since no callback means follow=True by default).
        Rule(SgmlLinkExtractor(allow=('/articles/.*\.htm', )),
             callback='parse_page', follow=True),
        # Extract links matching 'item.php' and parse them with the spider's method parse_item
    )
    def __init__(self):
        CrawlSpider.__init__(self)
        self.verificationErrors = []
        self.selenium = selenium("localhost", 4444, "*firefox", "https://3water.com")
        self.selenium.start()
    def __del__(self):
        self.selenium.stop()
        print self.verificationErrors
        CrawlSpider.__del__(self)

    def parse_page(self, response):
        self.log('Hi, this is an item page! %s' % response.url)
        sel = Selector(response)
        from webproxy.items import WebproxyItem
        sel = self.selenium
        sel.open(response.url)
        sel.wait_for_page_to_load("30000")
        import time
        time.sleep(2.5)
Python 相关文章推荐
Python字符串逐字符或逐词反转方法
May 21 Python
Pyhton中单行和多行注释的使用方法及规范
Oct 11 Python
python smtplib发送带附件邮件小程序
May 22 Python
解决使用pycharm提交代码时冲突之后文件丢失找回的方法
Aug 05 Python
Python中应该使用%还是format来格式化字符串
Sep 25 Python
Python模块/包/库安装的六种方法及区别
Feb 24 Python
详解pandas获取Dataframe元素值的几种方法
Jun 14 Python
opencv 阈值分割的具体使用
Jul 08 Python
Python Opencv实现单目标检测的示例代码
Sep 08 Python
如何向scrapy中的spider传递参数的几种方法
Nov 18 Python
Matplotlib animation模块实现动态图
Feb 25 Python
python析构函数用法及注意事项
Jun 22 Python
php使用递归与迭代实现快速排序示例
Jan 23 #Python
python实现批量转换文件编码(批转换编码示例)
Jan 23 #Python
python写的一个文本编辑器
Jan 23 #Python
python生成指定长度的随机数密码
Jan 23 #Python
python使用beautifulsoup从爱奇艺网抓取视频播放
Jan 23 #Python
python3使用urllib示例取googletranslate(谷歌翻译)
Jan 23 #Python
pyside写ui界面入门示例
Jan 22 #Python
You might like
一条久听不愿放下的DIY森海MX500,三言两语话神奇
2021/03/02 无线电
一个查看session内容的函数
2006/10/09 PHP
PHP5中虚函数的实现方法分享
2011/04/20 PHP
用PHP实现小写金额转换大写金额的代码(精确到分)
2012/01/10 PHP
PHP 自定义错误处理函数的使用详解
2013/05/10 PHP
解析Win7 XAMPP apache无法启动的问题
2013/06/26 PHP
使用图灵api创建微信聊天机器人
2015/07/23 PHP
laravel多条件查询方法(and,or嵌套查询)
2019/10/09 PHP
iframe调用父页面函数示例详解
2014/07/17 Javascript
javascript事件委托的方式绑定详解
2015/06/10 Javascript
深入理解事件冒泡(Bubble)和事件捕捉(capture)
2016/05/28 Javascript
jQuery增加、删除及修改select option的方法
2016/08/19 Javascript
json定义及jquery操作json的方法
2016/10/03 Javascript
使用jQuery ajaxupload插件实现无刷新上传文件
2017/04/23 jQuery
bootstrap模态框远程示例代码分享
2017/05/22 Javascript
详解通过JSON数据使用VUE.JS
2017/05/26 Javascript
微信小程序中使用ECharts 异步加载数据实现图表功能
2018/07/13 Javascript
layui 实现表单和文件上传一起传到后台的例子
2019/09/16 Javascript
VueCli4项目配置反向代理proxy的方法步骤
2020/05/17 Javascript
[02:31]《DAC最前线》之选手酒店现场花絮
2015/01/30 DOTA
详解django三种文件下载方式
2018/04/06 Python
django2用iframe标签完成网页内嵌播放b站视频功能
2018/06/20 Python
python设置环境变量的作用和实例
2019/07/09 Python
详解Selenium+PhantomJS+python简单实现爬虫的功能
2019/07/14 Python
Numpy数组array和矩阵matrix转换方法
2019/08/05 Python
python常用数据重复项处理方法
2019/11/22 Python
PYQT5 vscode联合操作qtdesigner的方法
2020/03/24 Python
Django用数据库表反向生成models类知识点详解
2020/03/25 Python
详解python变量与数据类型
2020/08/25 Python
python rsa-oaep加密的示例代码
2020/09/23 Python
会计师事务所实习证明
2014/11/16 职场文书
2015年民主生活会发言材料
2014/12/15 职场文书
颐和园的导游词
2015/01/30 职场文书
创卫工作总结2015
2015/04/22 职场文书
2015年城市管理工作总结
2015/05/23 职场文书
MySQL 用 limit 为什么会影响性能
2021/09/15 MySQL