python使用scrapy解析js示例


Posted in Python onJanuary 23, 2014
from selenium import selenium
class MySpider(CrawlSpider):
    name = 'cnbeta'
    allowed_domains = ['cnbeta.com']
    start_urls = ['https://3water.com']
    rules = (
        # Extract links matching 'category.php' (but not matching 'subsection.php')
        # and follow links from them (since no callback means follow=True by default).
        Rule(SgmlLinkExtractor(allow=('/articles/.*\.htm', )),
             callback='parse_page', follow=True),
        # Extract links matching 'item.php' and parse them with the spider's method parse_item
    )
    def __init__(self):
        CrawlSpider.__init__(self)
        self.verificationErrors = []
        self.selenium = selenium("localhost", 4444, "*firefox", "https://3water.com")
        self.selenium.start()
    def __del__(self):
        self.selenium.stop()
        print self.verificationErrors
        CrawlSpider.__del__(self)

    def parse_page(self, response):
        self.log('Hi, this is an item page! %s' % response.url)
        sel = Selector(response)
        from webproxy.items import WebproxyItem
        sel = self.selenium
        sel.open(response.url)
        sel.wait_for_page_to_load("30000")
        import time
        time.sleep(2.5)
Python 相关文章推荐
用C++封装MySQL的API的教程
May 06 Python
Python爬虫爬取一个网页上的图片地址实例代码
Jan 16 Python
关于Python正则表达式 findall函数问题详解
Mar 22 Python
Jupyter中直接显示Matplotlib的图形方法
May 24 Python
Python实现处理逆波兰表达式示例
Jul 30 Python
selenium+python实现1688网站验证码图片的截取功能
Aug 14 Python
python实现对指定字符串补足固定长度倍数截断输出的方法
Nov 15 Python
12个步骤教你理解Python装饰器
Jul 01 Python
浅谈Python中的异常和JSON读写数据的实现
Feb 27 Python
python实现简单井字棋游戏
Mar 04 Python
python opencv旋转图片的使用方法
Jun 04 Python
Python实现Hash算法
Mar 18 Python
php使用递归与迭代实现快速排序示例
Jan 23 #Python
python实现批量转换文件编码(批转换编码示例)
Jan 23 #Python
python写的一个文本编辑器
Jan 23 #Python
python生成指定长度的随机数密码
Jan 23 #Python
python使用beautifulsoup从爱奇艺网抓取视频播放
Jan 23 #Python
python3使用urllib示例取googletranslate(谷歌翻译)
Jan 23 #Python
pyside写ui界面入门示例
Jan 22 #Python
You might like
【动漫杂谈】关于《请在T台上微笑》
2020/03/03 日漫
深入理解PHP中的Session和Cookie
2013/06/21 PHP
jquery CSS选择器笔记
2010/03/29 Javascript
改善用户体验的五款jQuery插件分享
2011/05/22 Javascript
window.returnValue使用方法示例介绍
2014/07/03 Javascript
如何改进javascript代码的性能
2015/04/02 Javascript
jQuery时间轴插件使用详解
2015/07/16 Javascript
基于BootStarp的Dailog
2016/04/28 Javascript
微信小程序 获取当前地理位置和经纬度实例代码
2016/12/05 Javascript
纯javaScript、jQuery实现个性化图片轮播【推荐】
2017/01/08 Javascript
Node.js+jade+mongodb+mongoose实现爬虫分离入库与生成静态文件的方法
2017/09/20 Javascript
js实现登录注册框手机号和验证码校验(前端部分)
2017/09/28 Javascript
JS隐藏号码中间4位代码实例
2019/04/09 Javascript
Vue实现商品飞入购物车效果(电商项目)
2019/11/26 Javascript
[02:12]探秘2016国际邀请赛中国区预选赛选手房间
2016/06/25 DOTA
Python实现学生成绩管理系统
2020/04/05 Python
python 列表,数组和矩阵sum的用法及区别介绍
2018/06/28 Python
python3基于OpenCV实现证件照背景替换
2018/07/18 Python
使用python求解二次规划的问题
2020/02/29 Python
利用pandas向一个csv文件追加写入数据的实现示例
2020/04/23 Python
Python3创建Django项目的几种方法(3种)
2020/06/03 Python
Python Mock模块原理及使用方法详解
2020/07/07 Python
Jmeter调用Python脚本实现参数互相传递的实现
2021/01/22 Python
求职信写作要突出重点
2014/01/01 职场文书
毕业生个人求职信范文分享
2014/01/05 职场文书
复核员上岗演讲稿
2014/01/05 职场文书
新闻编辑自荐书范文
2014/02/12 职场文书
大学生全国两会报告感想
2014/03/17 职场文书
优秀中职教师事迹材料
2014/08/26 职场文书
小学中等生评语
2014/12/29 职场文书
铁人观后感
2015/06/16 职场文书
任命书格式模板
2015/09/22 职场文书
php中pcntl_fork详解
2021/04/01 PHP
用Python写一个简易版弹球游戏
2021/04/13 Python
Pycharm 如何设置HTML文件自动补全代码或标签
2021/05/21 Python
Redis集群的关闭与重启操作
2021/07/07 Redis