编程 Python

Python使用Chrome插件实现爬虫过程图解

Posted in Python onJune 09, 2020

做电商时，消费者对商品的评论是很重要的，但是不会写代码怎么办？这里有个Chrome插件可以做到简单的数据爬取，一句代码都不用写。下面给大家展示部分抓取后的数据：

可以看到，抓取的地址，评论人，评论内容，时间，产品颜色都已经抓取下来了。那么，爬取这些数据需要哪些工具呢？就两个：

1. Chrome浏览器；

2. 插件：Web Scraper

插件下载地址：https://chromecj.com/productivity/2018-05/942.html

最后，如果你想自己动手抓取一下，这里是这次抓取的详细过程：

1. 首先，复制如下的代码，对，你不需要写代码，但是为了便于上手，复制代码还是需要的，后续可以自己定制和选择，不需要写代码。

{
  "_id": "jdreview",
  "startUrl": [
    "https://item.jd.com/100000680365.html#comment"
  ],
  "selectors": [
    {
      "id": "user",
      "type": "SelectorText",
      "selector": "div.user-info",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": 0
    },
    {
      "id": "comments",
      "type": "SelectorText",
      "selector": "div.comment-column > p.comment-con",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": 0
    },
    {
      "id": "time",
      "type": "SelectorText",
      "selector": "div.comment-message:nth-of-type(5) span:nth-of-type(4), div.order-info span:nth-of-type(4)",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": "0"
    },
    {
      "id": "color",
      "type": "SelectorText",
      "selector": "div.order-info span:nth-of-type(1)",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": 0
    },
    {
      "id": "main",
      "type": "SelectorElementClick",
      "selector": "div.comment-item",
      "parentSelectors": [
        "_root"
      ],
      "multiple": true,
      "delay": "10000",
      "clickElementSelector": "div.com-table-footer a.ui-pager-next",
      "clickType": "clickMore",
      "discardInitialElements": false,
      "clickElementUniquenessType": "uniqueHTMLText"
    }
  ]
}

2. 然后打开chrome浏览器，在任意页面同时按下Ctrl+Shift+i，在弹出的窗口中找到Web Scraper，如下：

Python使用Chrome插件实现爬虫过程图解

3. 如下

Python使用Chrome插件实现爬虫过程图解

4. 如图，粘贴上述的代码：

Python使用Chrome插件实现爬虫过程图解

5. 如图，如果需要定制网址，注意替代一下，网址后面的#comment是直达评论的链接，不能去掉：

Python使用Chrome插件实现爬虫过程图解

6. 如图：

Python使用Chrome插件实现爬虫过程图解

7. 如图：

Python使用Chrome插件实现爬虫过程图解

8. 如图，点击Scrape后，会自动运行打开需要抓取得页面，不要关闭窗口，静静等待完成，完成后右下方会提示完成，一般1000条以内的评论不会有问题：

Python使用Chrome插件实现爬虫过程图解

9. 最后，点击下载到电脑，数据保存好。

Python使用Chrome插件实现爬虫过程图解

使用这个工具的好处是：

1. 不需要编程；

2. 京东的评论基本可以通用此脚本，修改对应的url即可；

3. 如果需要爬取的评论不到1000条，这个工具会非常称手，所有的数据完全自动下载；

使用的注意点：

1. 抓取过一次的数据会有记录，立刻再次抓取将不会保存，建议关闭浏览器重新打开后再试；

2. 抓取数量:1000条以内没有问题，可能是京东按照IP直接阻止了更多的爬取；

如果你的英语水平不错，可以尝试阅读官方文档，进一步学习和定制自己的爬虫。

官方教程：https://www.webscraper.io/documentation

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

Python使用Chrome插件实现爬虫过程图解

- Author -

Johnthegreat

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python中的Descriptor描述符学习教程

Jun 02 Python

python基础教程项目五之虚拟茶话会

Apr 02 Python

windows下python安装pip图文教程

May 25 Python

Caffe均值文件mean.binaryproto转mean.npy的方法

Jul 09 Python

python 将list转成字符串,中间用符号分隔的方法

Oct 23 Python

Python如何处理大数据？3个技巧效率提升攻略（推荐）

Apr 15 Python

详解一种用django_cache实现分布式锁的方式

Sep 01 Python

Python3使用PySynth制作音乐的方法

Sep 09 Python

解决pycharm同一目录下无法import其他文件

Feb 12 Python

Python流程控制常用工具详解

Feb 24 Python

Python openpyxl 插入折线图实例

Apr 17 Python

利用Python批量识别电子账单数据的方法

Feb 08 Python

Python导入数值型Excel数据并生成矩阵操作

Jun 09 #Python

Python带参数的装饰器运行原理解析

Jun 09 #Python

Python sorted对list和dict排序

Jun 09 #Python

python初步实现word2vec操作

Jun 09 #Python

Python生成随机验证码代码实例解析

Jun 09 #Python

在python下实现word2vec词向量训练与加载实例

Jun 09 #Python

Python实现寻找回文数字过程解析

Jun 09 #Python

You might like

PHP可变函数的使用详解

2013/06/14 PHP

PHP小教程之实现双向链表

2014/06/12 PHP

PHP 反射(Reflection)使用实例

2015/05/12 PHP

PHP基于文件存储实现缓存的方法

2015/07/20 PHP

php获得客户端浏览器名称及版本的方法(基于ECShop函数)

2015/12/23 PHP

php实现数字补零的方法总结

2018/09/12 PHP

laravel 事件/监听器实例代码

2019/04/12 PHP

解决laravel 表单提交-POST 异常的问题

2019/10/15 PHP

javascript应用：Iframe自适应其加载的内容高度

2007/04/10 Javascript

javascript 正则替换 replace(regExp, function)用法

2010/05/22 Javascript

jquery操作select option 的代码小结

2011/06/21 Javascript

ASP.NET jQuery 实例10 动态修改hyperlink的URL值

2012/02/03 Javascript

JS Replace 全部替换字符的用法小结

2013/12/24 Javascript

jQuery实现倒计时按钮功能代码分享

2014/09/03 Javascript

javascript实现表格增删改操作实例详解

2015/05/15 Javascript

javascript获取重复次数最多的字符

2015/07/08 Javascript

jQuery插件boxScroll实现图片轮播特效

2015/07/14 Javascript

jQuery实现下滑菜单导航效果代码

2015/08/25 Javascript

最全的Javascript编码规范(推荐)

2016/06/22 Javascript

利用Vue.js指令实现全选功能

2016/09/08 Javascript

js提示框替代系统alert,自动关闭alert对话框的实现方法

2016/11/07 Javascript

JavaScript中Math对象的方法介绍

2017/01/05 Javascript

React 项目迁移 Webpack Babel7的实现

2018/09/12 Javascript

在angularJs中进行数据遍历的2种方法

2018/10/08 Javascript

解决python3中自定义wsgi函数,make_server函数报错的问题

2017/11/21 Python

Python线程池模块ThreadPoolExecutor用法分析

2018/12/28 Python

python 移动图片到另外一个文件夹的实例

2019/01/10 Python

使用Python完成15位18位身份证的互转功能

2019/11/06 Python

Python turtle画图库&&画姓名实例

2020/01/19 Python

python实现在一个画布上画多个子图

2020/01/19 Python

Django 拼接两个queryset 或是两个不可以相加的对象实例

2020/03/28 Python

python实现控制台输出彩色字体

2020/04/05 Python

python 数据库查询返回list或tuple实例

2020/05/15 Python

ghd法国官方网站：英国最受欢迎的美发工具品牌

2019/04/18 全球购物

ORACLE十问

2015/04/20 面试题

办加油卡单位介绍信

2014/01/09 职场文书