python使用scrapy解析js示例


Posted in Python onJanuary 23, 2014
from selenium import selenium
class MySpider(CrawlSpider):
    name = 'cnbeta'
    allowed_domains = ['cnbeta.com']
    start_urls = ['https://3water.com']
    rules = (
        # Extract links matching 'category.php' (but not matching 'subsection.php')
        # and follow links from them (since no callback means follow=True by default).
        Rule(SgmlLinkExtractor(allow=('/articles/.*\.htm', )),
             callback='parse_page', follow=True),
        # Extract links matching 'item.php' and parse them with the spider's method parse_item
    )
    def __init__(self):
        CrawlSpider.__init__(self)
        self.verificationErrors = []
        self.selenium = selenium("localhost", 4444, "*firefox", "https://3water.com")
        self.selenium.start()
    def __del__(self):
        self.selenium.stop()
        print self.verificationErrors
        CrawlSpider.__del__(self)

    def parse_page(self, response):
        self.log('Hi, this is an item page! %s' % response.url)
        sel = Selector(response)
        from webproxy.items import WebproxyItem
        sel = self.selenium
        sel.open(response.url)
        sel.wait_for_page_to_load("30000")
        import time
        time.sleep(2.5)
Python 相关文章推荐
Python爬虫框架Scrapy实战之批量抓取招聘信息
Aug 07 Python
简单学习Python多进程Multiprocessing
Aug 29 Python
python计算日期之间的放假日期
Jun 05 Python
Python实现对文件进行单词划分并去重排序操作示例
Jul 10 Python
Python3实现获取图片文字里中文的方法分析
Dec 13 Python
Python实现将字符串的首字母变为大写,其余都变为小写的方法
Jun 11 Python
python twilio模块实现发送手机短信功能
Aug 02 Python
Django 实现xadmin后台菜单改为中文
Nov 15 Python
python实现控制台输出彩色字体
Apr 05 Python
jupyter 导入csv文件方式
Apr 21 Python
Python如何实现机器人聊天
Sep 10 Python
python opencv角点检测连线功能的实现代码
Nov 24 Python
php使用递归与迭代实现快速排序示例
Jan 23 #Python
python实现批量转换文件编码(批转换编码示例)
Jan 23 #Python
python写的一个文本编辑器
Jan 23 #Python
python生成指定长度的随机数密码
Jan 23 #Python
python使用beautifulsoup从爱奇艺网抓取视频播放
Jan 23 #Python
python3使用urllib示例取googletranslate(谷歌翻译)
Jan 23 #Python
pyside写ui界面入门示例
Jan 22 #Python
You might like
php通过COM类调用组件的实现代码
2012/01/11 PHP
Win下如何安装PHP的APC拓展
2013/08/07 PHP
php 参数过滤、数据过滤详解
2015/10/26 PHP
js实现权限树的更新权限时的全选全消功能
2009/02/17 Javascript
javascript 多浏览器 事件大全
2010/03/23 Javascript
Prototype源码浅析 String部分(四)之补充
2012/01/16 Javascript
js格式化时间小结
2014/11/03 Javascript
JavaScript中数据结构与算法(三):链表
2015/06/19 Javascript
浅析JavaScript 箭头函数 generator Date JSON
2016/05/23 Javascript
JavaScript实现点击按钮复制指定区域文本(推荐)
2016/11/25 Javascript
Javascript中for循环语句的几种写法总结对比
2017/01/23 Javascript
详解Angular.js指令中scope类型的几种特殊情况
2017/02/21 Javascript
基于jQuery实现一个marquee无缝滚动的插件
2017/03/09 Javascript
详解angular2实现ng2-router 路由和嵌套路由
2017/03/24 Javascript
vue之nextTick全面解析
2017/05/17 Javascript
nodejs 子进程正确的打开方式
2017/07/03 NodeJs
Angular实现点击按钮控制隐藏和显示功能示例
2017/12/29 Javascript
原生JS实现获取及修改CSS样式的方法
2018/09/04 Javascript
JS/HTML5游戏常用算法之碰撞检测 包围盒检测算法详解【圆形情况】
2018/12/13 Javascript
layerui代码控制tab选项卡,添加,关闭的实例
2019/09/04 Javascript
Vue实现多标签选择器
2019/11/28 Javascript
[01:11:48]Fnatic vs IG 2018国际邀请赛小组赛BO2 第二场 8.17
2018/08/18 DOTA
一道python走迷宫算法题
2018/01/22 Python
python爬虫爬取网页表格数据
2018/03/07 Python
TensorFlow用expand_dim()来增加维度的方法
2018/07/26 Python
将python2.7添加进64位系统的注册表方式
2019/11/20 Python
python自动生成证件号的方法示例
2021/01/14 Python
亚瑟士美国官网:ASICS美国
2017/02/01 全球购物
个人简历自我鉴定
2013/10/11 职场文书
医院竞聘演讲稿
2014/05/16 职场文书
公司担保书范文
2014/05/21 职场文书
学校清明节活动总结
2014/07/04 职场文书
2015年度党员个人总结
2015/02/14 职场文书
三十年同学聚会感言
2015/07/30 职场文书
美德少年主要事迹材料
2015/11/04 职场文书
早上好问候语大全
2015/11/10 职场文书