Python使用Chrome插件实现爬虫过程图解


Posted in Python onJune 09, 2020

做电商时,消费者对商品的评论是很重要的,但是不会写代码怎么办?这里有个Chrome插件可以做到简单的数据爬取,一句代码都不用写。下面给大家展示部分抓取后的数据:

Python使用Chrome插件实现爬虫过程图解

可以看到,抓取的地址,评论人,评论内容,时间,产品颜色都已经抓取下来了。那么,爬取这些数据需要哪些工具呢?就两个:

1. Chrome浏览器;

2. 插件:Web Scraper

插件下载地址:https://chromecj.com/productivity/2018-05/942.html

最后,如果你想自己动手抓取一下,这里是这次抓取的详细过程:

1. 首先,复制如下的代码,对,你不需要写代码,但是为了便于上手,复制代码还是需要的,后续可以自己定制和选择,不需要写代码。

{
  "_id": "jdreview",
  "startUrl": [
    "https://item.jd.com/100000680365.html#comment"
  ],
  "selectors": [
    {
      "id": "user",
      "type": "SelectorText",
      "selector": "div.user-info",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": 0
    },
    {
      "id": "comments",
      "type": "SelectorText",
      "selector": "div.comment-column > p.comment-con",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": 0
    },
    {
      "id": "time",
      "type": "SelectorText",
      "selector": "div.comment-message:nth-of-type(5) span:nth-of-type(4), div.order-info span:nth-of-type(4)",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": "0"
    },
    {
      "id": "color",
      "type": "SelectorText",
      "selector": "div.order-info span:nth-of-type(1)",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": 0
    },
    {
      "id": "main",
      "type": "SelectorElementClick",
      "selector": "div.comment-item",
      "parentSelectors": [
        "_root"
      ],
      "multiple": true,
      "delay": "10000",
      "clickElementSelector": "div.com-table-footer a.ui-pager-next",
      "clickType": "clickMore",
      "discardInitialElements": false,
      "clickElementUniquenessType": "uniqueHTMLText"
    }
  ]
}

2. 然后打开chrome浏览器,在任意页面同时按下Ctrl+Shift+i,在弹出的窗口中找到Web Scraper,如下:

Python使用Chrome插件实现爬虫过程图解

3. 如下

Python使用Chrome插件实现爬虫过程图解

4. 如图,粘贴上述的代码:

Python使用Chrome插件实现爬虫过程图解

5. 如图,如果需要定制网址,注意替代一下,网址后面的#comment是直达评论的链接,不能去掉:

Python使用Chrome插件实现爬虫过程图解

6. 如图:

Python使用Chrome插件实现爬虫过程图解

7. 如图:

Python使用Chrome插件实现爬虫过程图解

8. 如图,点击Scrape后,会自动运行打开需要抓取得页面,不要关闭窗口,静静等待完成,完成后右下方会提示完成,一般1000条以内的评论不会有问题:

Python使用Chrome插件实现爬虫过程图解

9. 最后,点击下载到电脑,数据保存好。

Python使用Chrome插件实现爬虫过程图解

使用这个工具的好处是:

1. 不需要编程;

2. 京东的评论基本可以通用此脚本,修改对应的url即可;

3. 如果需要爬取的评论不到1000条,这个工具会非常称手,所有的数据完全自动下载;

使用的注意点:

1. 抓取过一次的数据会有记录,立刻再次抓取将不会保存,建议关闭浏览器重新打开后再试;

2. 抓取数量:1000条以内没有问题,可能是京东按照IP直接阻止了更多的爬取;

如果你的英语水平不错,可以尝试阅读官方文档,进一步学习和定制自己的爬虫。

官方教程:https://www.webscraper.io/documentation

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python解析发往本机的数据包示例 (解析数据包)
Jan 16 Python
Python socket编程实例详解
May 27 Python
Python用Pillow(PIL)进行简单的图像操作方法
Jul 07 Python
apache部署python程序出现503错误的解决方法
Jul 24 Python
python实现根据文件关键字进行切分为多个文件的示例
Dec 10 Python
python实现beta分布概率密度函数的方法
Jul 08 Python
Python爬取豆瓣视频信息代码实例
Nov 16 Python
让你的Python代码实现类型提示功能
Nov 19 Python
Python求正态分布曲线下面积实例
Nov 20 Python
pyspark给dataframe增加新的一列的实现示例
Apr 24 Python
详解pandas映射与数据转换
Jan 22 Python
Python 文字识别
May 11 Python
Python导入数值型Excel数据并生成矩阵操作
Jun 09 #Python
Python带参数的装饰器运行原理解析
Jun 09 #Python
Python sorted对list和dict排序
Jun 09 #Python
python初步实现word2vec操作
Jun 09 #Python
Python生成随机验证码代码实例解析
Jun 09 #Python
在python下实现word2vec词向量训练与加载实例
Jun 09 #Python
Python实现寻找回文数字过程解析
Jun 09 #Python
You might like
Drupal 添加模块出现莫名其妙的错误的解决方法(往往出现在模块较多时)
2011/04/18 PHP
php 判断字符串中是否包含html标签
2014/02/17 PHP
如何阻止网站被恶意反向代理访问(防网站镜像)
2014/03/18 PHP
Linux下安装PHP MSSQL扩展教程
2014/10/24 PHP
php选择排序法实现数组排序实例分析
2015/02/16 PHP
Laravel定时任务的每秒执行代码
2019/10/22 PHP
jsp+javascript打造级连菜单的实例代码
2013/06/14 Javascript
javascript不可用的问题探究
2013/10/01 Javascript
fmt:formatDate的输出格式详解
2014/01/09 Javascript
JQuery中使文本框获得焦点的方法实例分析
2015/02/28 Javascript
Windows系统下Node.js的简单入门教程
2015/06/23 Javascript
基于JS2Image实现圣诞树代码
2015/12/24 Javascript
jquery 重写 ajax提交并判断权限后 使用load方法报错解决方法
2016/01/19 Javascript
JS简单去除数组中重复项的方法
2016/09/13 Javascript
EasyUI 中combotree 默认不能选择父节点的实现方法
2016/11/07 Javascript
jquery网页日历显示控件calendar3.1使用详解
2016/11/24 Javascript
Angular通过angular-cli来搭建web前端项目的方法
2017/07/27 Javascript
vue实现的树形结构加多选框示例
2019/02/02 Javascript
JavaScript中的各种宽高属性的实现
2020/05/08 Javascript
js+canvas绘制图形验证码
2020/09/21 Javascript
Javascript confirm多种使用方法解析
2020/09/25 Javascript
Python自动调用IE打开某个网站的方法
2015/06/03 Python
Python赋值语句后逗号的作用分析
2015/06/08 Python
Python实现短网址ShortUrl的Hash运算实例讲解
2015/08/10 Python
Python中使用asyncio 封装文件读写
2016/09/11 Python
Python在不同目录下导入模块的实现方法
2017/10/27 Python
python使用正则表达式来获取文件名的前缀方法
2018/10/21 Python
Python3 assert断言实现原理解析
2020/03/02 Python
Python中socket网络通信是干嘛的
2020/05/27 Python
HTML5 绘制图像(上)之:关于canvas元素引领下一代web页面的问题
2013/04/24 HTML / CSS
国外平面设计第一市场:99designs
2016/10/25 全球购物
美国主要的特色咖啡和茶公司:Peet’s Coffee
2020/02/14 全球购物
管理信息系学生的自我评价
2014/01/11 职场文书
2014年度安全生产目标管理责任书
2014/07/25 职场文书
司法局2014法制宣传日活动总结
2014/11/01 职场文书
MySQL解决Navicat设置默认字符串时的报错问题
2022/06/16 MySQL