Python使用Chrome插件实现爬虫过程图解


Posted in Python onJune 09, 2020

做电商时,消费者对商品的评论是很重要的,但是不会写代码怎么办?这里有个Chrome插件可以做到简单的数据爬取,一句代码都不用写。下面给大家展示部分抓取后的数据:

Python使用Chrome插件实现爬虫过程图解

可以看到,抓取的地址,评论人,评论内容,时间,产品颜色都已经抓取下来了。那么,爬取这些数据需要哪些工具呢?就两个:

1. Chrome浏览器;

2. 插件:Web Scraper

插件下载地址:https://chromecj.com/productivity/2018-05/942.html

最后,如果你想自己动手抓取一下,这里是这次抓取的详细过程:

1. 首先,复制如下的代码,对,你不需要写代码,但是为了便于上手,复制代码还是需要的,后续可以自己定制和选择,不需要写代码。

{
  "_id": "jdreview",
  "startUrl": [
    "https://item.jd.com/100000680365.html#comment"
  ],
  "selectors": [
    {
      "id": "user",
      "type": "SelectorText",
      "selector": "div.user-info",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": 0
    },
    {
      "id": "comments",
      "type": "SelectorText",
      "selector": "div.comment-column > p.comment-con",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": 0
    },
    {
      "id": "time",
      "type": "SelectorText",
      "selector": "div.comment-message:nth-of-type(5) span:nth-of-type(4), div.order-info span:nth-of-type(4)",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": "0"
    },
    {
      "id": "color",
      "type": "SelectorText",
      "selector": "div.order-info span:nth-of-type(1)",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": 0
    },
    {
      "id": "main",
      "type": "SelectorElementClick",
      "selector": "div.comment-item",
      "parentSelectors": [
        "_root"
      ],
      "multiple": true,
      "delay": "10000",
      "clickElementSelector": "div.com-table-footer a.ui-pager-next",
      "clickType": "clickMore",
      "discardInitialElements": false,
      "clickElementUniquenessType": "uniqueHTMLText"
    }
  ]
}

2. 然后打开chrome浏览器,在任意页面同时按下Ctrl+Shift+i,在弹出的窗口中找到Web Scraper,如下:

Python使用Chrome插件实现爬虫过程图解

3. 如下

Python使用Chrome插件实现爬虫过程图解

4. 如图,粘贴上述的代码:

Python使用Chrome插件实现爬虫过程图解

5. 如图,如果需要定制网址,注意替代一下,网址后面的#comment是直达评论的链接,不能去掉:

Python使用Chrome插件实现爬虫过程图解

6. 如图:

Python使用Chrome插件实现爬虫过程图解

7. 如图:

Python使用Chrome插件实现爬虫过程图解

8. 如图,点击Scrape后,会自动运行打开需要抓取得页面,不要关闭窗口,静静等待完成,完成后右下方会提示完成,一般1000条以内的评论不会有问题:

Python使用Chrome插件实现爬虫过程图解

9. 最后,点击下载到电脑,数据保存好。

Python使用Chrome插件实现爬虫过程图解

使用这个工具的好处是:

1. 不需要编程;

2. 京东的评论基本可以通用此脚本,修改对应的url即可;

3. 如果需要爬取的评论不到1000条,这个工具会非常称手,所有的数据完全自动下载;

使用的注意点:

1. 抓取过一次的数据会有记录,立刻再次抓取将不会保存,建议关闭浏览器重新打开后再试;

2. 抓取数量:1000条以内没有问题,可能是京东按照IP直接阻止了更多的爬取;

如果你的英语水平不错,可以尝试阅读官方文档,进一步学习和定制自己的爬虫。

官方教程:https://www.webscraper.io/documentation

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python类型强制转换long to int的代码
Feb 10 Python
Python 3.x 新特性及10大变化
Jun 12 Python
Python的Django框架中设置日期和字段可选的方法
Jul 17 Python
Python HTTP客户端自定义Cookie实现实例
Apr 28 Python
Python之py2exe打包工具详解
Jun 14 Python
python flask 多对多表查询功能
Jun 25 Python
Python实现爬取百度贴吧帖子所有楼层图片的爬虫示例
Apr 26 Python
Python的iOS自动化打包实例代码
Nov 22 Python
python使用pandas处理excel文件转为csv文件的方法示例
Jul 18 Python
Pytorch实现各种2d卷积示例
Dec 30 Python
解决pytorch多GPU训练保存的模型,在单GPU环境下加载出错问题
Jun 23 Python
pytorch查看网络参数显存占用量等操作
May 12 Python
Python导入数值型Excel数据并生成矩阵操作
Jun 09 #Python
Python带参数的装饰器运行原理解析
Jun 09 #Python
Python sorted对list和dict排序
Jun 09 #Python
python初步实现word2vec操作
Jun 09 #Python
Python生成随机验证码代码实例解析
Jun 09 #Python
在python下实现word2vec词向量训练与加载实例
Jun 09 #Python
Python实现寻找回文数字过程解析
Jun 09 #Python
You might like
PHP源码之explode使用说明
2011/08/05 PHP
php中CI操作多个数据库的代码
2012/07/05 PHP
Thinkphp中import的几个用法详细介绍
2014/07/02 PHP
PHP循环遍历数组的3种方法list()、each()和while总结
2014/11/19 PHP
php+ajax实现的点击浏览量加1
2015/04/16 PHP
php 中self,this的区别和操作方法实例分析
2019/11/04 PHP
jquery checkbox全选、取消全选实现代码
2010/03/05 Javascript
JavaScript实现的使用键盘控制人物走动实例
2014/08/27 Javascript
jQuery选择器源码解读(七):elementMatcher函数
2015/03/31 Javascript
在JavaScript中模拟类(class)及类的继承关系
2016/05/20 Javascript
vue的无缝滚动组件vue-seamless-scroll实例
2017/12/18 Javascript
详解微信小程序审核不通过的解决方法
2018/01/17 Javascript
vue根据值给予不同class的实例
2018/09/29 Javascript
CryptoJS中AES实现前后端通用加解密技术
2018/12/18 Javascript
Bootstrap实现模态框效果
2019/09/30 Javascript
15 分钟掌握vue-next响应式原理
2019/10/13 Javascript
[01:55]2014DOTA2国际邀请赛快报:国土生病 紧急去医院治疗
2014/07/10 DOTA
python下载文件记录黑名单的实现代码
2017/10/24 Python
一道python走迷宫算法题
2018/01/22 Python
flask中的wtforms使用方法
2018/07/21 Python
python+opencv+caffe+摄像头做目标检测的实例代码
2018/08/03 Python
python3中os.path模块下常用的用法总结【推荐】
2018/09/16 Python
Python中常用的内置方法
2019/01/28 Python
Python3数字求和的实例
2019/02/19 Python
django和vue实现数据交互的方法
2019/08/21 Python
python opencv实现gif图片分解的示例代码
2019/12/13 Python
Pandas时间序列:时期(period)及其算术运算详解
2020/02/25 Python
一篇文章搞懂python的转义字符及用法
2020/09/03 Python
纽约家具、家居装饰和地毯店:ABC Carpet & Home
2017/06/21 全球购物
德国团购网站:Groupon德国
2018/03/13 全球购物
美国迪克体育用品商店:DICK’S Sporting Goods
2018/07/24 全球购物
服务标兵事迹材料
2014/05/04 职场文书
大学生预备党员自我评价
2015/03/04 职场文书
慈善募捐倡议书
2015/04/27 职场文书
教你使用Python获取QQ音乐某个歌手的歌单
2022/04/03 Python
Linux服务器离线安装 nginx的详细步骤
2022/06/16 Servers