Python使用Chrome插件实现爬虫过程图解


Posted in Python onJune 09, 2020

做电商时,消费者对商品的评论是很重要的,但是不会写代码怎么办?这里有个Chrome插件可以做到简单的数据爬取,一句代码都不用写。下面给大家展示部分抓取后的数据:

Python使用Chrome插件实现爬虫过程图解

可以看到,抓取的地址,评论人,评论内容,时间,产品颜色都已经抓取下来了。那么,爬取这些数据需要哪些工具呢?就两个:

1. Chrome浏览器;

2. 插件:Web Scraper

插件下载地址:https://chromecj.com/productivity/2018-05/942.html

最后,如果你想自己动手抓取一下,这里是这次抓取的详细过程:

1. 首先,复制如下的代码,对,你不需要写代码,但是为了便于上手,复制代码还是需要的,后续可以自己定制和选择,不需要写代码。

{
  "_id": "jdreview",
  "startUrl": [
    "https://item.jd.com/100000680365.html#comment"
  ],
  "selectors": [
    {
      "id": "user",
      "type": "SelectorText",
      "selector": "div.user-info",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": 0
    },
    {
      "id": "comments",
      "type": "SelectorText",
      "selector": "div.comment-column > p.comment-con",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": 0
    },
    {
      "id": "time",
      "type": "SelectorText",
      "selector": "div.comment-message:nth-of-type(5) span:nth-of-type(4), div.order-info span:nth-of-type(4)",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": "0"
    },
    {
      "id": "color",
      "type": "SelectorText",
      "selector": "div.order-info span:nth-of-type(1)",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": 0
    },
    {
      "id": "main",
      "type": "SelectorElementClick",
      "selector": "div.comment-item",
      "parentSelectors": [
        "_root"
      ],
      "multiple": true,
      "delay": "10000",
      "clickElementSelector": "div.com-table-footer a.ui-pager-next",
      "clickType": "clickMore",
      "discardInitialElements": false,
      "clickElementUniquenessType": "uniqueHTMLText"
    }
  ]
}

2. 然后打开chrome浏览器,在任意页面同时按下Ctrl+Shift+i,在弹出的窗口中找到Web Scraper,如下:

Python使用Chrome插件实现爬虫过程图解

3. 如下

Python使用Chrome插件实现爬虫过程图解

4. 如图,粘贴上述的代码:

Python使用Chrome插件实现爬虫过程图解

5. 如图,如果需要定制网址,注意替代一下,网址后面的#comment是直达评论的链接,不能去掉:

Python使用Chrome插件实现爬虫过程图解

6. 如图:

Python使用Chrome插件实现爬虫过程图解

7. 如图:

Python使用Chrome插件实现爬虫过程图解

8. 如图,点击Scrape后,会自动运行打开需要抓取得页面,不要关闭窗口,静静等待完成,完成后右下方会提示完成,一般1000条以内的评论不会有问题:

Python使用Chrome插件实现爬虫过程图解

9. 最后,点击下载到电脑,数据保存好。

Python使用Chrome插件实现爬虫过程图解

使用这个工具的好处是:

1. 不需要编程;

2. 京东的评论基本可以通用此脚本,修改对应的url即可;

3. 如果需要爬取的评论不到1000条,这个工具会非常称手,所有的数据完全自动下载;

使用的注意点:

1. 抓取过一次的数据会有记录,立刻再次抓取将不会保存,建议关闭浏览器重新打开后再试;

2. 抓取数量:1000条以内没有问题,可能是京东按照IP直接阻止了更多的爬取;

如果你的英语水平不错,可以尝试阅读官方文档,进一步学习和定制自己的爬虫。

官方教程:https://www.webscraper.io/documentation

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
分享一下Python 开发者节省时间的10个方法
Oct 02 Python
以视频爬取实例讲解Python爬虫神器Beautiful Soup用法
Jan 20 Python
python中os模块详解
Oct 14 Python
Python操作Sql Server 2008数据库的方法详解
May 17 Python
Flask模拟实现CSRF攻击的方法
Jul 24 Python
为什么str(float)在Python 3中比Python 2返回更多的数字
Oct 16 Python
基于wxPython的GUI实现输入对话框(1)
Feb 27 Python
python文档字符串(函数使用说明)使用详解
Jul 30 Python
Python写出新冠状病毒确诊人数地图的方法
Feb 12 Python
python 异步async库的使用说明
May 04 Python
termux中matplotlib无法显示中文问题的解决方法
Jan 11 Python
python实现监听键盘
Apr 26 Python
Python导入数值型Excel数据并生成矩阵操作
Jun 09 #Python
Python带参数的装饰器运行原理解析
Jun 09 #Python
Python sorted对list和dict排序
Jun 09 #Python
python初步实现word2vec操作
Jun 09 #Python
Python生成随机验证码代码实例解析
Jun 09 #Python
在python下实现word2vec词向量训练与加载实例
Jun 09 #Python
Python实现寻找回文数字过程解析
Jun 09 #Python
You might like
学习使用curl采集curl使用方法
2012/01/11 PHP
Laravel框架中扩展函数、扩展自定义类的方法
2014/09/04 PHP
php进行ip地址掩码运算处理的方法
2016/07/11 PHP
PHP守护进程化在C和PHP环境下的实现
2017/11/21 PHP
从QQ网站中提取的纯JS省市区三级联动菜单
2013/12/25 Javascript
js图片延迟技术一般的思路与示例
2014/03/20 Javascript
html5+javascript制作简易画板附图
2014/04/25 Javascript
jQuery实现延迟跳转的方法
2015/06/05 Javascript
JS实现仿雅虎首页快捷登录入口及导航模块效果
2015/09/19 Javascript
Bootstrap前端开发案例二
2016/06/17 Javascript
解决nodejs中使用http请求返回值为html时乱码的问题
2017/02/18 NodeJs
JS模拟超市简易收银台小程序代码解析
2017/08/18 Javascript
vue中promise的使用及异步请求数据的方法
2018/11/08 Javascript
js获取 gif 的帧数的代码实例
2019/09/10 Javascript
[01:38]【DOTA2亚洲邀请赛】Sumail——梦开始的地方
2017/03/03 DOTA
Python 文件操作技巧(File operation) 实例代码分析
2008/08/11 Python
Python描述器descriptor详解
2015/02/03 Python
Django日志模块logging的配置详解
2017/02/14 Python
Python 从一个文件中调用另一个文件的类方法
2019/01/10 Python
Python 计算任意两向量之间的夹角方法
2019/07/05 Python
django 快速启动数据库客户端程序的方法示例
2019/08/16 Python
python使用beautifulsoup4爬取酷狗音乐代码实例
2019/12/04 Python
Python递归实现打印多重列表代码
2020/02/27 Python
python with语句的原理与用法详解
2020/03/30 Python
python递归函数求n的阶乘,优缺点及递归次数设置方式
2020/04/02 Python
Python flask框架端口失效解决方案
2020/06/04 Python
python接入支付宝的实例操作
2020/07/20 Python
XD健身器材:Kevlar球、Crossfit健身球
2019/03/26 全球购物
财务会计专业个人求职信范本
2014/01/08 职场文书
环保专业大学生职业规划设计
2014/01/10 职场文书
社区庆中秋节活动方案
2014/02/07 职场文书
大学军训感言800字
2014/02/27 职场文书
禁毒宣传活动总结
2014/08/26 职场文书
2014年学生会个人工作总结
2014/11/07 职场文书
党员倡议书
2015/01/19 职场文书
2016年保险公众宣传日活动总结
2016/04/05 职场文书