Python使用Chrome插件实现爬虫过程图解


Posted in Python onJune 09, 2020

做电商时,消费者对商品的评论是很重要的,但是不会写代码怎么办?这里有个Chrome插件可以做到简单的数据爬取,一句代码都不用写。下面给大家展示部分抓取后的数据:

Python使用Chrome插件实现爬虫过程图解

可以看到,抓取的地址,评论人,评论内容,时间,产品颜色都已经抓取下来了。那么,爬取这些数据需要哪些工具呢?就两个:

1. Chrome浏览器;

2. 插件:Web Scraper

插件下载地址:https://chromecj.com/productivity/2018-05/942.html

最后,如果你想自己动手抓取一下,这里是这次抓取的详细过程:

1. 首先,复制如下的代码,对,你不需要写代码,但是为了便于上手,复制代码还是需要的,后续可以自己定制和选择,不需要写代码。

{
  "_id": "jdreview",
  "startUrl": [
    "https://item.jd.com/100000680365.html#comment"
  ],
  "selectors": [
    {
      "id": "user",
      "type": "SelectorText",
      "selector": "div.user-info",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": 0
    },
    {
      "id": "comments",
      "type": "SelectorText",
      "selector": "div.comment-column > p.comment-con",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": 0
    },
    {
      "id": "time",
      "type": "SelectorText",
      "selector": "div.comment-message:nth-of-type(5) span:nth-of-type(4), div.order-info span:nth-of-type(4)",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": "0"
    },
    {
      "id": "color",
      "type": "SelectorText",
      "selector": "div.order-info span:nth-of-type(1)",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": 0
    },
    {
      "id": "main",
      "type": "SelectorElementClick",
      "selector": "div.comment-item",
      "parentSelectors": [
        "_root"
      ],
      "multiple": true,
      "delay": "10000",
      "clickElementSelector": "div.com-table-footer a.ui-pager-next",
      "clickType": "clickMore",
      "discardInitialElements": false,
      "clickElementUniquenessType": "uniqueHTMLText"
    }
  ]
}

2. 然后打开chrome浏览器,在任意页面同时按下Ctrl+Shift+i,在弹出的窗口中找到Web Scraper,如下:

Python使用Chrome插件实现爬虫过程图解

3. 如下

Python使用Chrome插件实现爬虫过程图解

4. 如图,粘贴上述的代码:

Python使用Chrome插件实现爬虫过程图解

5. 如图,如果需要定制网址,注意替代一下,网址后面的#comment是直达评论的链接,不能去掉:

Python使用Chrome插件实现爬虫过程图解

6. 如图:

Python使用Chrome插件实现爬虫过程图解

7. 如图:

Python使用Chrome插件实现爬虫过程图解

8. 如图,点击Scrape后,会自动运行打开需要抓取得页面,不要关闭窗口,静静等待完成,完成后右下方会提示完成,一般1000条以内的评论不会有问题:

Python使用Chrome插件实现爬虫过程图解

9. 最后,点击下载到电脑,数据保存好。

Python使用Chrome插件实现爬虫过程图解

使用这个工具的好处是:

1. 不需要编程;

2. 京东的评论基本可以通用此脚本,修改对应的url即可;

3. 如果需要爬取的评论不到1000条,这个工具会非常称手,所有的数据完全自动下载;

使用的注意点:

1. 抓取过一次的数据会有记录,立刻再次抓取将不会保存,建议关闭浏览器重新打开后再试;

2. 抓取数量:1000条以内没有问题,可能是京东按照IP直接阻止了更多的爬取;

如果你的英语水平不错,可以尝试阅读官方文档,进一步学习和定制自己的爬虫。

官方教程:https://www.webscraper.io/documentation

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python中map、any、all函数用法分析
Apr 21 Python
Python使用asyncio包处理并发详解
Sep 09 Python
Python异常处理操作实例详解
Aug 28 Python
对numpy中二进制格式的数据存储与读取方法详解
Nov 01 Python
Python3 tkinter 实现文件读取及保存功能
Sep 12 Python
python统计指定目录内文件的代码行数
Sep 19 Python
Python如何基于smtplib发不同格式的邮件
Dec 30 Python
python如何实现读取并显示图片(不需要图形界面)
Jul 08 Python
详细分析Python可变对象和不可变对象
Jul 09 Python
基于python图书馆管理系统设计实例详解
Aug 05 Python
python实现canny边缘检测
Sep 14 Python
python 实现socket服务端并发的四种方式
Dec 14 Python
Python导入数值型Excel数据并生成矩阵操作
Jun 09 #Python
Python带参数的装饰器运行原理解析
Jun 09 #Python
Python sorted对list和dict排序
Jun 09 #Python
python初步实现word2vec操作
Jun 09 #Python
Python生成随机验证码代码实例解析
Jun 09 #Python
在python下实现word2vec词向量训练与加载实例
Jun 09 #Python
Python实现寻找回文数字过程解析
Jun 09 #Python
You might like
PHP获取网址的顶级域名函数代码
2012/09/24 PHP
PHP扩展开发入门教程
2015/02/26 PHP
php实现购物车功能(下)
2016/01/05 PHP
php微信公众账号开发之前五个坑(一)
2016/09/18 PHP
ThinkPHP5.0多个文件上传后找不到临时文件的修改方法
2018/07/30 PHP
PHP实现数组和对象的相互转换操作示例
2019/03/20 PHP
Js 订制自己的AlertBox(信息提示框)
2009/01/09 Javascript
JavaScript几种形式的树结构菜单
2010/05/10 Javascript
利用cookie记住背景颜色示例代码
2013/11/04 Javascript
JS读取XML文件示例代码
2013/11/15 Javascript
Flexigrid在IE下不显示数据的有效处理方法
2014/09/04 Javascript
基于jquery的文字向上跑动类似跑马灯的效果
2014/09/22 Javascript
在 Angular 中实现搜索关键字高亮示例
2017/03/21 Javascript
基于Vue框架vux组件库实现上拉刷新功能
2017/11/28 Javascript
深入浅析var,let,const的异同点
2018/08/07 Javascript
Vue中使用ElementUI使用第三方图标库iconfont的示例
2018/10/11 Javascript
Three.js实现3D机房效果
2018/12/30 Javascript
Angular6 用户自定义标签开发的实现方法
2019/01/08 Javascript
ES6使用 Array.includes 处理多重条件用法实例分析
2020/03/02 Javascript
[42:32]Secret vs Optic 2018国际邀请赛小组赛BO2 第二场 8.18
2018/08/19 DOTA
Python中title()方法的使用简介
2015/05/20 Python
python生成词云的实现方法(推荐)
2017/06/13 Python
python生成excel的实例代码
2017/11/08 Python
使用Python3内置文档高效学习以及官方中文文档
2019/05/19 Python
Pytorch之扩充tensor的操作
2021/03/04 Python
英国第二大营养品供应商:Vitabiotics
2016/10/01 全球购物
碧欧泉法国官网:Biotherm法国
2019/10/23 全球购物
日本亚马逊官方网站:Amazon.co.jp
2020/04/14 全球购物
竞争上岗演讲稿
2014/01/05 职场文书
学校世界艾滋病日宣传活动总结
2015/05/05 职场文书
企业宣传语大全
2015/07/13 职场文书
求职信:求职应该注意的问题
2019/04/24 职场文书
MySQL主从复制断开的常用修复方法
2021/04/07 MySQL
vue+spring boot实现校验码功能
2021/05/27 Vue.js
新手入门Mysql--概念
2021/06/18 MySQL
SQLServer RANK() 排名函数的使用
2022/03/23 SQL Server