Python使用Chrome插件实现爬虫过程图解


Posted in Python onJune 09, 2020

做电商时,消费者对商品的评论是很重要的,但是不会写代码怎么办?这里有个Chrome插件可以做到简单的数据爬取,一句代码都不用写。下面给大家展示部分抓取后的数据:

Python使用Chrome插件实现爬虫过程图解

可以看到,抓取的地址,评论人,评论内容,时间,产品颜色都已经抓取下来了。那么,爬取这些数据需要哪些工具呢?就两个:

1. Chrome浏览器;

2. 插件:Web Scraper

插件下载地址:https://chromecj.com/productivity/2018-05/942.html

最后,如果你想自己动手抓取一下,这里是这次抓取的详细过程:

1. 首先,复制如下的代码,对,你不需要写代码,但是为了便于上手,复制代码还是需要的,后续可以自己定制和选择,不需要写代码。

{
  "_id": "jdreview",
  "startUrl": [
    "https://item.jd.com/100000680365.html#comment"
  ],
  "selectors": [
    {
      "id": "user",
      "type": "SelectorText",
      "selector": "div.user-info",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": 0
    },
    {
      "id": "comments",
      "type": "SelectorText",
      "selector": "div.comment-column > p.comment-con",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": 0
    },
    {
      "id": "time",
      "type": "SelectorText",
      "selector": "div.comment-message:nth-of-type(5) span:nth-of-type(4), div.order-info span:nth-of-type(4)",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": "0"
    },
    {
      "id": "color",
      "type": "SelectorText",
      "selector": "div.order-info span:nth-of-type(1)",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": 0
    },
    {
      "id": "main",
      "type": "SelectorElementClick",
      "selector": "div.comment-item",
      "parentSelectors": [
        "_root"
      ],
      "multiple": true,
      "delay": "10000",
      "clickElementSelector": "div.com-table-footer a.ui-pager-next",
      "clickType": "clickMore",
      "discardInitialElements": false,
      "clickElementUniquenessType": "uniqueHTMLText"
    }
  ]
}

2. 然后打开chrome浏览器,在任意页面同时按下Ctrl+Shift+i,在弹出的窗口中找到Web Scraper,如下:

Python使用Chrome插件实现爬虫过程图解

3. 如下

Python使用Chrome插件实现爬虫过程图解

4. 如图,粘贴上述的代码:

Python使用Chrome插件实现爬虫过程图解

5. 如图,如果需要定制网址,注意替代一下,网址后面的#comment是直达评论的链接,不能去掉:

Python使用Chrome插件实现爬虫过程图解

6. 如图:

Python使用Chrome插件实现爬虫过程图解

7. 如图:

Python使用Chrome插件实现爬虫过程图解

8. 如图,点击Scrape后,会自动运行打开需要抓取得页面,不要关闭窗口,静静等待完成,完成后右下方会提示完成,一般1000条以内的评论不会有问题:

Python使用Chrome插件实现爬虫过程图解

9. 最后,点击下载到电脑,数据保存好。

Python使用Chrome插件实现爬虫过程图解

使用这个工具的好处是:

1. 不需要编程;

2. 京东的评论基本可以通用此脚本,修改对应的url即可;

3. 如果需要爬取的评论不到1000条,这个工具会非常称手,所有的数据完全自动下载;

使用的注意点:

1. 抓取过一次的数据会有记录,立刻再次抓取将不会保存,建议关闭浏览器重新打开后再试;

2. 抓取数量:1000条以内没有问题,可能是京东按照IP直接阻止了更多的爬取;

如果你的英语水平不错,可以尝试阅读官方文档,进一步学习和定制自己的爬虫。

官方教程:https://www.webscraper.io/documentation

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
使用 Python 获取 Linux 系统信息的代码
Jul 13 Python
Python获取DLL和EXE文件版本号的方法
Mar 10 Python
Python2与python3中 for 循环语句基础与实例分析
Nov 20 Python
记一次python 内存泄漏问题及解决过程
Nov 29 Python
Python3+PyInstall+Sciter解决报错缺少dll、html等文件问题
Jul 15 Python
在python中用url_for构造URL的方法
Jul 25 Python
解决pandas展示数据输出时列名不能对齐的问题
Nov 18 Python
python实现串口通信的示例代码
Feb 10 Python
Python可以实现栈的结构吗
May 27 Python
python 30行代码实现蚂蚁森林自动偷能量
Feb 08 Python
Python爬虫之爬取某文库文档数据
Apr 21 Python
Django分页器的用法你都了解吗
May 26 Python
Python导入数值型Excel数据并生成矩阵操作
Jun 09 #Python
Python带参数的装饰器运行原理解析
Jun 09 #Python
Python sorted对list和dict排序
Jun 09 #Python
python初步实现word2vec操作
Jun 09 #Python
Python生成随机验证码代码实例解析
Jun 09 #Python
在python下实现word2vec词向量训练与加载实例
Jun 09 #Python
Python实现寻找回文数字过程解析
Jun 09 #Python
You might like
深入理解PHP原理之错误抑制与内嵌HTML分析
2011/05/02 PHP
thinkphp 多表 事务详解
2013/06/17 PHP
Symfony2针对输入时间进行查询的方法分析
2017/06/28 PHP
JS之小练习代码
2008/10/12 Javascript
跟着JQuery API学Jquery 之三 筛选
2010/04/09 Javascript
js 限制数字 js限制输入实现代码
2012/12/04 Javascript
jquery 中的each()跳出循环的语句
2014/05/23 Javascript
Jquery异步提交表单代码分享
2015/03/26 Javascript
QQ登录背景闪动效果附效果演示源码下载
2015/09/22 Javascript
js中window.open的参数及注意注意事项
2016/07/06 Javascript
轻松实现js弹框显示选项
2016/09/13 Javascript
Bootstrapvalidator校验、校验清除重置的实现代码(推荐)
2016/09/28 Javascript
详解JS: reduce方法实现 webpack多文件入口
2017/02/14 Javascript
jquery.flot.js简单绘制折线图用法示例
2017/03/13 Javascript
bootstrap轮播图示例代码分享
2017/05/17 Javascript
关于使用axios的一些心得技巧分享
2017/07/02 Javascript
微信小程序报错:this.setData is not a function的解决办法
2017/09/27 Javascript
使用JS代码实现俄罗斯方块游戏
2018/08/03 Javascript
layui+jquery支持IE8的表格分页方法
2019/09/28 jQuery
Angular5整合富文本编辑器TinyMCE的方法(汉化+上传)
2020/05/26 Javascript
Python3.x爬虫下载网页图片的实例讲解
2018/05/22 Python
Python爬虫框架scrapy实现的文件下载功能示例
2018/08/04 Python
python2 与 pyhton3的输入语句写法小结
2018/09/10 Python
python 美化输出信息的实例
2018/10/15 Python
Django实现学生管理系统
2019/02/26 Python
Python动态赋值的陷阱知识点总结
2019/03/17 Python
Python grequests模块使用场景及代码实例
2020/08/10 Python
使用CSS3编写灰阶滤镜来制作黑白照片效果的方法
2016/05/09 HTML / CSS
洲际酒店集团英国官网:IHG英国
2019/07/10 全球购物
创业计划书怎样才能打动风投
2014/01/01 职场文书
高三历史教学反思
2014/01/09 职场文书
初级会计求职信范文
2014/02/15 职场文书
年会主持词结束语
2014/03/27 职场文书
爱心捐款活动总结
2015/05/09 职场文书
幼儿园小班班务总结
2015/08/03 职场文书
python实现A*寻路算法
2021/06/13 Python