Python使用Chrome插件实现爬虫过程图解


Posted in Python onJune 09, 2020

做电商时,消费者对商品的评论是很重要的,但是不会写代码怎么办?这里有个Chrome插件可以做到简单的数据爬取,一句代码都不用写。下面给大家展示部分抓取后的数据:

Python使用Chrome插件实现爬虫过程图解

可以看到,抓取的地址,评论人,评论内容,时间,产品颜色都已经抓取下来了。那么,爬取这些数据需要哪些工具呢?就两个:

1. Chrome浏览器;

2. 插件:Web Scraper

插件下载地址:https://chromecj.com/productivity/2018-05/942.html

最后,如果你想自己动手抓取一下,这里是这次抓取的详细过程:

1. 首先,复制如下的代码,对,你不需要写代码,但是为了便于上手,复制代码还是需要的,后续可以自己定制和选择,不需要写代码。

{
  "_id": "jdreview",
  "startUrl": [
    "https://item.jd.com/100000680365.html#comment"
  ],
  "selectors": [
    {
      "id": "user",
      "type": "SelectorText",
      "selector": "div.user-info",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": 0
    },
    {
      "id": "comments",
      "type": "SelectorText",
      "selector": "div.comment-column > p.comment-con",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": 0
    },
    {
      "id": "time",
      "type": "SelectorText",
      "selector": "div.comment-message:nth-of-type(5) span:nth-of-type(4), div.order-info span:nth-of-type(4)",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": "0"
    },
    {
      "id": "color",
      "type": "SelectorText",
      "selector": "div.order-info span:nth-of-type(1)",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": 0
    },
    {
      "id": "main",
      "type": "SelectorElementClick",
      "selector": "div.comment-item",
      "parentSelectors": [
        "_root"
      ],
      "multiple": true,
      "delay": "10000",
      "clickElementSelector": "div.com-table-footer a.ui-pager-next",
      "clickType": "clickMore",
      "discardInitialElements": false,
      "clickElementUniquenessType": "uniqueHTMLText"
    }
  ]
}

2. 然后打开chrome浏览器,在任意页面同时按下Ctrl+Shift+i,在弹出的窗口中找到Web Scraper,如下:

Python使用Chrome插件实现爬虫过程图解

3. 如下

Python使用Chrome插件实现爬虫过程图解

4. 如图,粘贴上述的代码:

Python使用Chrome插件实现爬虫过程图解

5. 如图,如果需要定制网址,注意替代一下,网址后面的#comment是直达评论的链接,不能去掉:

Python使用Chrome插件实现爬虫过程图解

6. 如图:

Python使用Chrome插件实现爬虫过程图解

7. 如图:

Python使用Chrome插件实现爬虫过程图解

8. 如图,点击Scrape后,会自动运行打开需要抓取得页面,不要关闭窗口,静静等待完成,完成后右下方会提示完成,一般1000条以内的评论不会有问题:

Python使用Chrome插件实现爬虫过程图解

9. 最后,点击下载到电脑,数据保存好。

Python使用Chrome插件实现爬虫过程图解

使用这个工具的好处是:

1. 不需要编程;

2. 京东的评论基本可以通用此脚本,修改对应的url即可;

3. 如果需要爬取的评论不到1000条,这个工具会非常称手,所有的数据完全自动下载;

使用的注意点:

1. 抓取过一次的数据会有记录,立刻再次抓取将不会保存,建议关闭浏览器重新打开后再试;

2. 抓取数量:1000条以内没有问题,可能是京东按照IP直接阻止了更多的爬取;

如果你的英语水平不错,可以尝试阅读官方文档,进一步学习和定制自己的爬虫。

官方教程:https://www.webscraper.io/documentation

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
使用python BeautifulSoup库抓取58手机维修信息
Nov 21 Python
Python列表(list)常用操作方法小结
Feb 02 Python
对Python 网络设备巡检脚本的实例讲解
Apr 22 Python
python 读取摄像头数据并保存的实例
Aug 03 Python
总结python中pass的作用
Feb 27 Python
python用for循环求和的方法总结
Jul 08 Python
详解Python对JSON中的特殊类型进行Encoder
Jul 15 Python
Python random库使用方法及异常处理方案
Mar 02 Python
基于python实现数组格式参数加密计算
Apr 21 Python
Python使用Selenium实现淘宝抢单的流程分析
Jun 23 Python
python输出结果刷新及进度条的实现操作
Jul 13 Python
Python如何实现远程方法调用
Aug 07 Python
Python导入数值型Excel数据并生成矩阵操作
Jun 09 #Python
Python带参数的装饰器运行原理解析
Jun 09 #Python
Python sorted对list和dict排序
Jun 09 #Python
python初步实现word2vec操作
Jun 09 #Python
Python生成随机验证码代码实例解析
Jun 09 #Python
在python下实现word2vec词向量训练与加载实例
Jun 09 #Python
Python实现寻找回文数字过程解析
Jun 09 #Python
You might like
是否存在第一台收音机的说法
2021/03/01 无线电
提升PHP执行速度全攻略(上)
2006/10/09 PHP
php微信开发之上传临时素材
2016/06/24 PHP
PHP+redis实现的悲观锁机制示例
2018/06/12 PHP
js function定义函数使用心得
2010/04/15 Javascript
jQuery插件开发基础简单介绍
2013/01/07 Javascript
ie9 提示'console' 未定义问题的解决方法
2014/03/20 Javascript
Javascript中的默认参数详解
2014/10/22 Javascript
JavaScript编写检测用户所使用的浏览器的代码示例
2016/05/05 Javascript
微信小程序 网络API发起请求详解
2016/11/09 Javascript
jQuery实现标签页效果实战(4)
2017/02/08 Javascript
Vue-不允许嵌套式的渲染方法
2018/09/13 Javascript
vue中选项卡点击切换且能滑动切换功能的实现代码
2018/11/25 Javascript
js canvas实现画图、滤镜效果
2018/11/27 Javascript
关于React动态加载路由处理的相关问题
2019/01/07 Javascript
详解element-ui表格中勾选checkbox,高亮当前行
2019/09/02 Javascript
Vue父子组件传值的一些坑
2020/09/16 Javascript
python之pandas用法大全
2018/03/13 Python
Python学生信息管理系统修改版
2018/03/13 Python
Django csrf 验证问题的实现
2018/10/09 Python
PyQt5 加载图片和文本文件的实例
2019/06/14 Python
python opencv 图像拼接的实现方法
2019/06/27 Python
python lambda的使用详解
2021/02/26 Python
纯CSS3代码实现文字描边
2016/04/25 HTML / CSS
精致的手工皮鞋:Shoe Embassy
2019/11/08 全球购物
皮肤科医师岗位职责
2013/12/04 职场文书
劳动模范事迹材料
2014/01/19 职场文书
在校生自我鉴定
2014/01/23 职场文书
幼儿园开学寄语
2014/04/03 职场文书
党员教师一句话承诺
2014/05/30 职场文书
升学宴学生答谢词
2015/01/05 职场文书
团代会闭幕词
2015/01/28 职场文书
论文评审意见
2015/06/05 职场文书
pytorch交叉熵损失函数的weight参数的使用
2021/05/24 Python
压缩Redis里的字符串大对象操作
2021/06/23 Redis
Python多线程 Queue 模块常见用法
2021/07/04 Python