Python使用Chrome插件实现爬虫过程图解


Posted in Python onJune 09, 2020

做电商时,消费者对商品的评论是很重要的,但是不会写代码怎么办?这里有个Chrome插件可以做到简单的数据爬取,一句代码都不用写。下面给大家展示部分抓取后的数据:

Python使用Chrome插件实现爬虫过程图解

可以看到,抓取的地址,评论人,评论内容,时间,产品颜色都已经抓取下来了。那么,爬取这些数据需要哪些工具呢?就两个:

1. Chrome浏览器;

2. 插件:Web Scraper

插件下载地址:https://chromecj.com/productivity/2018-05/942.html

最后,如果你想自己动手抓取一下,这里是这次抓取的详细过程:

1. 首先,复制如下的代码,对,你不需要写代码,但是为了便于上手,复制代码还是需要的,后续可以自己定制和选择,不需要写代码。

{
  "_id": "jdreview",
  "startUrl": [
    "https://item.jd.com/100000680365.html#comment"
  ],
  "selectors": [
    {
      "id": "user",
      "type": "SelectorText",
      "selector": "div.user-info",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": 0
    },
    {
      "id": "comments",
      "type": "SelectorText",
      "selector": "div.comment-column > p.comment-con",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": 0
    },
    {
      "id": "time",
      "type": "SelectorText",
      "selector": "div.comment-message:nth-of-type(5) span:nth-of-type(4), div.order-info span:nth-of-type(4)",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": "0"
    },
    {
      "id": "color",
      "type": "SelectorText",
      "selector": "div.order-info span:nth-of-type(1)",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": 0
    },
    {
      "id": "main",
      "type": "SelectorElementClick",
      "selector": "div.comment-item",
      "parentSelectors": [
        "_root"
      ],
      "multiple": true,
      "delay": "10000",
      "clickElementSelector": "div.com-table-footer a.ui-pager-next",
      "clickType": "clickMore",
      "discardInitialElements": false,
      "clickElementUniquenessType": "uniqueHTMLText"
    }
  ]
}

2. 然后打开chrome浏览器,在任意页面同时按下Ctrl+Shift+i,在弹出的窗口中找到Web Scraper,如下:

Python使用Chrome插件实现爬虫过程图解

3. 如下

Python使用Chrome插件实现爬虫过程图解

4. 如图,粘贴上述的代码:

Python使用Chrome插件实现爬虫过程图解

5. 如图,如果需要定制网址,注意替代一下,网址后面的#comment是直达评论的链接,不能去掉:

Python使用Chrome插件实现爬虫过程图解

6. 如图:

Python使用Chrome插件实现爬虫过程图解

7. 如图:

Python使用Chrome插件实现爬虫过程图解

8. 如图,点击Scrape后,会自动运行打开需要抓取得页面,不要关闭窗口,静静等待完成,完成后右下方会提示完成,一般1000条以内的评论不会有问题:

Python使用Chrome插件实现爬虫过程图解

9. 最后,点击下载到电脑,数据保存好。

Python使用Chrome插件实现爬虫过程图解

使用这个工具的好处是:

1. 不需要编程;

2. 京东的评论基本可以通用此脚本,修改对应的url即可;

3. 如果需要爬取的评论不到1000条,这个工具会非常称手,所有的数据完全自动下载;

使用的注意点:

1. 抓取过一次的数据会有记录,立刻再次抓取将不会保存,建议关闭浏览器重新打开后再试;

2. 抓取数量:1000条以内没有问题,可能是京东按照IP直接阻止了更多的爬取;

如果你的英语水平不错,可以尝试阅读官方文档,进一步学习和定制自己的爬虫。

官方教程:https://www.webscraper.io/documentation

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
用实例说明python的*args和**kwargs用法
Nov 01 Python
Python模块搜索概念介绍及模块安装方法介绍
Jun 03 Python
python入门基础之用户输入与模块初认识
Nov 14 Python
python处理按钮消息的实例详解
Jul 11 Python
通过python爬虫赚钱的方法
Jan 29 Python
django模板加载静态文件的方法步骤
Mar 01 Python
利用pyuic5将ui文件转换为py文件的方法
Jun 19 Python
Pycharm保存不能自动同步到远程服务器的解决方法
Jun 27 Python
django-crontab实现服务端的定时任务的示例代码
Feb 17 Python
opencv 图像滤波(均值,方框,高斯,中值)
Jul 08 Python
python自动化办公操作PPT的实现
Feb 05 Python
python利用后缀表达式实现计算器功能
Feb 22 Python
Python导入数值型Excel数据并生成矩阵操作
Jun 09 #Python
Python带参数的装饰器运行原理解析
Jun 09 #Python
Python sorted对list和dict排序
Jun 09 #Python
python初步实现word2vec操作
Jun 09 #Python
Python生成随机验证码代码实例解析
Jun 09 #Python
在python下实现word2vec词向量训练与加载实例
Jun 09 #Python
Python实现寻找回文数字过程解析
Jun 09 #Python
You might like
《OVERLORD》手游英文版即将上线 手机上也能扮演骨王
2020/04/09 日漫
让php处理图片变得简单 基于gb库的图片处理类附实例代码下载
2011/05/17 PHP
PHP分多步骤填写发布信息的简单方法实例代码
2012/09/23 PHP
有道搜索和IP138的IP的API接口(PHP应用)
2012/11/29 PHP
关于Sphinx创建全文检索的索引介绍
2013/06/25 PHP
国产PHP开发框架myqee新手快速入门教程
2014/07/14 PHP
使用Huagepage和PGO来提升PHP7的执行性能
2015/11/30 PHP
PHP7新特性
2021/03/09 PHP
基于jQuery的让非HTML5浏览器支持placeholder属性的代码
2011/05/24 Javascript
Package.js  现代化的JavaScript项目make工具
2012/05/23 Javascript
file模式访问网页时iframe高度自适应解决方案
2013/01/16 Javascript
jquery实现的一个文章自定义分段显示功能
2014/05/23 Javascript
JS实现的表格行鼠标点击高亮效果代码
2015/11/27 Javascript
js密码强度检测
2016/01/07 Javascript
javascript 中Cookie读、写与删除操作
2017/03/29 Javascript
详解RequireJS按需加载样式文件
2017/04/12 Javascript
微信小程序的分类页面制作
2017/06/27 Javascript
vue单页应用在页面刷新时保留状态数据的方法
2018/09/21 Javascript
TypeScript中的方法重载详解
2019/04/12 Javascript
Vue基于iview实现登录密码的显示与隐藏功能
2020/03/06 Javascript
DJANGO-ALLAUTH社交用户系统的安装配置
2014/11/18 Python
使用Python脚本对Linux服务器进行监控的教程
2015/04/02 Python
python之线程通过信号pyqtSignal刷新ui的方法
2019/01/11 Python
用OpenCV将视频分解成单帧图片,图片合成视频示例
2019/12/10 Python
记一次django内存异常排查及解决方法
2020/08/07 Python
北美大型运动类产品商城:Champs Sports
2017/01/12 全球购物
香奈儿美国官网:CHANEL美国
2020/05/20 全球购物
如何通过 CSS 写出火焰效果
2021/03/24 HTML / CSS
2014年单位植树节活动方案
2014/03/23 职场文书
高考寄语大全
2014/04/08 职场文书
公司建议书怎么写
2014/05/15 职场文书
调解书格式范本
2015/05/20 职场文书
2016春季幼儿园开学寄语
2015/12/03 职场文书
学术会议开幕词
2016/03/03 职场文书
PyQt5 QThread倒计时功能的实现代码
2021/04/02 Python
奥特曼十大神器:奥特手镯在榜,第一是贝利亚的神器
2022/03/18 日漫