Python使用Chrome插件实现爬虫过程图解


Posted in Python onJune 09, 2020

做电商时,消费者对商品的评论是很重要的,但是不会写代码怎么办?这里有个Chrome插件可以做到简单的数据爬取,一句代码都不用写。下面给大家展示部分抓取后的数据:

Python使用Chrome插件实现爬虫过程图解

可以看到,抓取的地址,评论人,评论内容,时间,产品颜色都已经抓取下来了。那么,爬取这些数据需要哪些工具呢?就两个:

1. Chrome浏览器;

2. 插件:Web Scraper

插件下载地址:https://chromecj.com/productivity/2018-05/942.html

最后,如果你想自己动手抓取一下,这里是这次抓取的详细过程:

1. 首先,复制如下的代码,对,你不需要写代码,但是为了便于上手,复制代码还是需要的,后续可以自己定制和选择,不需要写代码。

{
  "_id": "jdreview",
  "startUrl": [
    "https://item.jd.com/100000680365.html#comment"
  ],
  "selectors": [
    {
      "id": "user",
      "type": "SelectorText",
      "selector": "div.user-info",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": 0
    },
    {
      "id": "comments",
      "type": "SelectorText",
      "selector": "div.comment-column > p.comment-con",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": 0
    },
    {
      "id": "time",
      "type": "SelectorText",
      "selector": "div.comment-message:nth-of-type(5) span:nth-of-type(4), div.order-info span:nth-of-type(4)",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": "0"
    },
    {
      "id": "color",
      "type": "SelectorText",
      "selector": "div.order-info span:nth-of-type(1)",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": 0
    },
    {
      "id": "main",
      "type": "SelectorElementClick",
      "selector": "div.comment-item",
      "parentSelectors": [
        "_root"
      ],
      "multiple": true,
      "delay": "10000",
      "clickElementSelector": "div.com-table-footer a.ui-pager-next",
      "clickType": "clickMore",
      "discardInitialElements": false,
      "clickElementUniquenessType": "uniqueHTMLText"
    }
  ]
}

2. 然后打开chrome浏览器,在任意页面同时按下Ctrl+Shift+i,在弹出的窗口中找到Web Scraper,如下:

Python使用Chrome插件实现爬虫过程图解

3. 如下

Python使用Chrome插件实现爬虫过程图解

4. 如图,粘贴上述的代码:

Python使用Chrome插件实现爬虫过程图解

5. 如图,如果需要定制网址,注意替代一下,网址后面的#comment是直达评论的链接,不能去掉:

Python使用Chrome插件实现爬虫过程图解

6. 如图:

Python使用Chrome插件实现爬虫过程图解

7. 如图:

Python使用Chrome插件实现爬虫过程图解

8. 如图,点击Scrape后,会自动运行打开需要抓取得页面,不要关闭窗口,静静等待完成,完成后右下方会提示完成,一般1000条以内的评论不会有问题:

Python使用Chrome插件实现爬虫过程图解

9. 最后,点击下载到电脑,数据保存好。

Python使用Chrome插件实现爬虫过程图解

使用这个工具的好处是:

1. 不需要编程;

2. 京东的评论基本可以通用此脚本,修改对应的url即可;

3. 如果需要爬取的评论不到1000条,这个工具会非常称手,所有的数据完全自动下载;

使用的注意点:

1. 抓取过一次的数据会有记录,立刻再次抓取将不会保存,建议关闭浏览器重新打开后再试;

2. 抓取数量:1000条以内没有问题,可能是京东按照IP直接阻止了更多的爬取;

如果你的英语水平不错,可以尝试阅读官方文档,进一步学习和定制自己的爬虫。

官方教程:https://www.webscraper.io/documentation

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python中的Descriptor描述符学习教程
Jun 02 Python
python基础教程项目五之虚拟茶话会
Apr 02 Python
windows下python安装pip图文教程
May 25 Python
Caffe均值文件mean.binaryproto转mean.npy的方法
Jul 09 Python
python 将list转成字符串,中间用符号分隔的方法
Oct 23 Python
Python如何处理大数据?3个技巧效率提升攻略(推荐)
Apr 15 Python
详解一种用django_cache实现分布式锁的方式
Sep 01 Python
Python3使用PySynth制作音乐的方法
Sep 09 Python
解决pycharm同一目录下无法import其他文件
Feb 12 Python
Python流程控制常用工具详解
Feb 24 Python
Python openpyxl 插入折线图实例
Apr 17 Python
利用Python批量识别电子账单数据的方法
Feb 08 Python
Python导入数值型Excel数据并生成矩阵操作
Jun 09 #Python
Python带参数的装饰器运行原理解析
Jun 09 #Python
Python sorted对list和dict排序
Jun 09 #Python
python初步实现word2vec操作
Jun 09 #Python
Python生成随机验证码代码实例解析
Jun 09 #Python
在python下实现word2vec词向量训练与加载实例
Jun 09 #Python
Python实现寻找回文数字过程解析
Jun 09 #Python
You might like
PHP可变函数的使用详解
2013/06/14 PHP
PHP小教程之实现双向链表
2014/06/12 PHP
PHP 反射(Reflection)使用实例
2015/05/12 PHP
PHP基于文件存储实现缓存的方法
2015/07/20 PHP
php获得客户端浏览器名称及版本的方法(基于ECShop函数)
2015/12/23 PHP
php实现数字补零的方法总结
2018/09/12 PHP
laravel 事件/监听器实例代码
2019/04/12 PHP
解决laravel 表单提交-POST 异常的问题
2019/10/15 PHP
javascript应用:Iframe自适应其加载的内容高度
2007/04/10 Javascript
javascript 正则替换 replace(regExp, function)用法
2010/05/22 Javascript
jquery操作select option 的代码小结
2011/06/21 Javascript
ASP.NET jQuery 实例10 动态修改hyperlink的URL值
2012/02/03 Javascript
JS Replace 全部替换字符的用法小结
2013/12/24 Javascript
jQuery实现倒计时按钮功能代码分享
2014/09/03 Javascript
javascript实现表格增删改操作实例详解
2015/05/15 Javascript
javascript获取重复次数最多的字符
2015/07/08 Javascript
jQuery插件boxScroll实现图片轮播特效
2015/07/14 Javascript
jQuery实现下滑菜单导航效果代码
2015/08/25 Javascript
最全的Javascript编码规范(推荐)
2016/06/22 Javascript
利用Vue.js指令实现全选功能
2016/09/08 Javascript
js提示框替代系统alert,自动关闭alert对话框的实现方法
2016/11/07 Javascript
JavaScript中Math对象的方法介绍
2017/01/05 Javascript
React 项目迁移 Webpack Babel7的实现
2018/09/12 Javascript
在angularJs中进行数据遍历的2种方法
2018/10/08 Javascript
解决python3中自定义wsgi函数,make_server函数报错的问题
2017/11/21 Python
Python线程池模块ThreadPoolExecutor用法分析
2018/12/28 Python
python 移动图片到另外一个文件夹的实例
2019/01/10 Python
使用Python完成15位18位身份证的互转功能
2019/11/06 Python
Python turtle画图库&&画姓名实例
2020/01/19 Python
python实现在一个画布上画多个子图
2020/01/19 Python
Django 拼接两个queryset 或是两个不可以相加的对象实例
2020/03/28 Python
python实现控制台输出彩色字体
2020/04/05 Python
python 数据库查询返回list或tuple实例
2020/05/15 Python
ghd法国官方网站:英国最受欢迎的美发工具品牌
2019/04/18 全球购物
ORACLE十问
2015/04/20 面试题
办加油卡单位介绍信
2014/01/09 职场文书