Python使用Chrome插件实现爬虫过程图解


Posted in Python onJune 09, 2020

做电商时,消费者对商品的评论是很重要的,但是不会写代码怎么办?这里有个Chrome插件可以做到简单的数据爬取,一句代码都不用写。下面给大家展示部分抓取后的数据:

Python使用Chrome插件实现爬虫过程图解

可以看到,抓取的地址,评论人,评论内容,时间,产品颜色都已经抓取下来了。那么,爬取这些数据需要哪些工具呢?就两个:

1. Chrome浏览器;

2. 插件:Web Scraper

插件下载地址:https://chromecj.com/productivity/2018-05/942.html

最后,如果你想自己动手抓取一下,这里是这次抓取的详细过程:

1. 首先,复制如下的代码,对,你不需要写代码,但是为了便于上手,复制代码还是需要的,后续可以自己定制和选择,不需要写代码。

{
  "_id": "jdreview",
  "startUrl": [
    "https://item.jd.com/100000680365.html#comment"
  ],
  "selectors": [
    {
      "id": "user",
      "type": "SelectorText",
      "selector": "div.user-info",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": 0
    },
    {
      "id": "comments",
      "type": "SelectorText",
      "selector": "div.comment-column > p.comment-con",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": 0
    },
    {
      "id": "time",
      "type": "SelectorText",
      "selector": "div.comment-message:nth-of-type(5) span:nth-of-type(4), div.order-info span:nth-of-type(4)",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": "0"
    },
    {
      "id": "color",
      "type": "SelectorText",
      "selector": "div.order-info span:nth-of-type(1)",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": 0
    },
    {
      "id": "main",
      "type": "SelectorElementClick",
      "selector": "div.comment-item",
      "parentSelectors": [
        "_root"
      ],
      "multiple": true,
      "delay": "10000",
      "clickElementSelector": "div.com-table-footer a.ui-pager-next",
      "clickType": "clickMore",
      "discardInitialElements": false,
      "clickElementUniquenessType": "uniqueHTMLText"
    }
  ]
}

2. 然后打开chrome浏览器,在任意页面同时按下Ctrl+Shift+i,在弹出的窗口中找到Web Scraper,如下:

Python使用Chrome插件实现爬虫过程图解

3. 如下

Python使用Chrome插件实现爬虫过程图解

4. 如图,粘贴上述的代码:

Python使用Chrome插件实现爬虫过程图解

5. 如图,如果需要定制网址,注意替代一下,网址后面的#comment是直达评论的链接,不能去掉:

Python使用Chrome插件实现爬虫过程图解

6. 如图:

Python使用Chrome插件实现爬虫过程图解

7. 如图:

Python使用Chrome插件实现爬虫过程图解

8. 如图,点击Scrape后,会自动运行打开需要抓取得页面,不要关闭窗口,静静等待完成,完成后右下方会提示完成,一般1000条以内的评论不会有问题:

Python使用Chrome插件实现爬虫过程图解

9. 最后,点击下载到电脑,数据保存好。

Python使用Chrome插件实现爬虫过程图解

使用这个工具的好处是:

1. 不需要编程;

2. 京东的评论基本可以通用此脚本,修改对应的url即可;

3. 如果需要爬取的评论不到1000条,这个工具会非常称手,所有的数据完全自动下载;

使用的注意点:

1. 抓取过一次的数据会有记录,立刻再次抓取将不会保存,建议关闭浏览器重新打开后再试;

2. 抓取数量:1000条以内没有问题,可能是京东按照IP直接阻止了更多的爬取;

如果你的英语水平不错,可以尝试阅读官方文档,进一步学习和定制自己的爬虫。

官方教程:https://www.webscraper.io/documentation

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python 探针的实现原理
Apr 23 Python
详解Python各大聊天系统的屏蔽脏话功能原理
Dec 01 Python
Python实现Smtplib发送带有各种附件的邮件实例
Jun 05 Python
Python3简单实例计算同花的概率代码
Dec 06 Python
微信小程序跳一跳游戏 python脚本跳一跳刷高分技巧
Jan 04 Python
python截取两个单词之间的内容方法
Dec 25 Python
python实现统计文本中单词出现的频率详解
May 20 Python
Python 离线工作环境搭建的方法步骤
Jul 29 Python
python实现控制台输出颜色
Mar 02 Python
python如何利用traceback获取详细的异常信息
Jun 05 Python
Pytest中skip skipif跳过用例详解
Jun 30 Python
详解PyTorch模型保存与加载
Apr 28 Python
Python导入数值型Excel数据并生成矩阵操作
Jun 09 #Python
Python带参数的装饰器运行原理解析
Jun 09 #Python
Python sorted对list和dict排序
Jun 09 #Python
python初步实现word2vec操作
Jun 09 #Python
Python生成随机验证码代码实例解析
Jun 09 #Python
在python下实现word2vec词向量训练与加载实例
Jun 09 #Python
Python实现寻找回文数字过程解析
Jun 09 #Python
You might like
PHP备份/还原MySQL数据库的代码
2011/01/06 PHP
PHP通用检测函数集合
2011/02/08 PHP
基于命令行执行带参数的php脚本并取得参数的方法
2016/01/25 PHP
阿里云的WindowsServer2016上部署php+apache
2018/07/17 PHP
PHP信号处理机制的操作代码讲解
2019/04/19 PHP
Thinkphp5.0框架视图view的循环标签用法示例
2019/10/12 PHP
TP5框架实现签到功能的方法分析
2020/04/05 PHP
jQuery validate 中文API 附validate.js中文api手册
2010/07/31 Javascript
javascript实例分享---具有立体效果的图片特效
2014/06/08 Javascript
node.js中的fs.appendFileSync方法使用说明
2014/12/17 Javascript
JavaScript匿名函数用法分析
2015/02/13 Javascript
javascript回到顶部特效
2016/07/30 Javascript
JS数组返回去重后数据的方法解析
2017/01/03 Javascript
Vue.js使用$.ajax和vue-resource实现OAuth的注册、登录、注销和API调用
2017/05/10 Javascript
JS实现页面内跳转的简单代码
2017/09/03 Javascript
深入理解ES6中let和闭包
2018/02/22 Javascript
Vue常见面试题整理【值得收藏】
2018/09/20 Javascript
[02:59]DOTA2完美大师赛主赛事第三日精彩集锦
2017/11/25 DOTA
跟老齐学Python之大话题小函数(1)
2014/10/10 Python
Python实现中一次读取多个值的方法
2018/04/22 Python
Python 内置函数进制转换的用法(十进制转二进制、八进制、十六进制)
2018/04/30 Python
python leetcode 字符串相乘实例详解
2018/09/03 Python
详解Python数据可视化编程 - 词云生成并保存(jieba+WordCloud)
2019/03/26 Python
python安装和pycharm环境搭建设置方法
2020/05/27 Python
Python实现将元组中的元素作为参数传入函数的操作
2020/06/05 Python
中国综合网上购物商城:苏宁易购
2016/08/09 全球购物
雅诗兰黛旗下走天然植物路线的彩妆品牌:Prescriptives
2016/08/14 全球购物
Charles & Keith欧盟:新加坡时尚品牌
2019/08/01 全球购物
《分一分》教学反思
2014/04/13 职场文书
2014年社会实践活动总结范文
2014/04/29 职场文书
团日活动总结报告
2014/06/25 职场文书
内勤岗位职责范本
2015/04/13 职场文书
六年级数学教学反思
2016/02/16 职场文书
《蚂蚁和蝈蝈》教学反思
2016/02/22 职场文书
英文诗歌翻译方法(赏析)
2019/08/16 职场文书
Mysql数据库中datetime、bigint、timestamp来表示时间选择,谁来存储时间效率最高
2021/08/23 MySQL