Python使用Chrome插件实现爬虫过程图解


Posted in Python onJune 09, 2020

做电商时,消费者对商品的评论是很重要的,但是不会写代码怎么办?这里有个Chrome插件可以做到简单的数据爬取,一句代码都不用写。下面给大家展示部分抓取后的数据:

Python使用Chrome插件实现爬虫过程图解

可以看到,抓取的地址,评论人,评论内容,时间,产品颜色都已经抓取下来了。那么,爬取这些数据需要哪些工具呢?就两个:

1. Chrome浏览器;

2. 插件:Web Scraper

插件下载地址:https://chromecj.com/productivity/2018-05/942.html

最后,如果你想自己动手抓取一下,这里是这次抓取的详细过程:

1. 首先,复制如下的代码,对,你不需要写代码,但是为了便于上手,复制代码还是需要的,后续可以自己定制和选择,不需要写代码。

{
  "_id": "jdreview",
  "startUrl": [
    "https://item.jd.com/100000680365.html#comment"
  ],
  "selectors": [
    {
      "id": "user",
      "type": "SelectorText",
      "selector": "div.user-info",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": 0
    },
    {
      "id": "comments",
      "type": "SelectorText",
      "selector": "div.comment-column > p.comment-con",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": 0
    },
    {
      "id": "time",
      "type": "SelectorText",
      "selector": "div.comment-message:nth-of-type(5) span:nth-of-type(4), div.order-info span:nth-of-type(4)",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": "0"
    },
    {
      "id": "color",
      "type": "SelectorText",
      "selector": "div.order-info span:nth-of-type(1)",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": 0
    },
    {
      "id": "main",
      "type": "SelectorElementClick",
      "selector": "div.comment-item",
      "parentSelectors": [
        "_root"
      ],
      "multiple": true,
      "delay": "10000",
      "clickElementSelector": "div.com-table-footer a.ui-pager-next",
      "clickType": "clickMore",
      "discardInitialElements": false,
      "clickElementUniquenessType": "uniqueHTMLText"
    }
  ]
}

2. 然后打开chrome浏览器,在任意页面同时按下Ctrl+Shift+i,在弹出的窗口中找到Web Scraper,如下:

Python使用Chrome插件实现爬虫过程图解

3. 如下

Python使用Chrome插件实现爬虫过程图解

4. 如图,粘贴上述的代码:

Python使用Chrome插件实现爬虫过程图解

5. 如图,如果需要定制网址,注意替代一下,网址后面的#comment是直达评论的链接,不能去掉:

Python使用Chrome插件实现爬虫过程图解

6. 如图:

Python使用Chrome插件实现爬虫过程图解

7. 如图:

Python使用Chrome插件实现爬虫过程图解

8. 如图,点击Scrape后,会自动运行打开需要抓取得页面,不要关闭窗口,静静等待完成,完成后右下方会提示完成,一般1000条以内的评论不会有问题:

Python使用Chrome插件实现爬虫过程图解

9. 最后,点击下载到电脑,数据保存好。

Python使用Chrome插件实现爬虫过程图解

使用这个工具的好处是:

1. 不需要编程;

2. 京东的评论基本可以通用此脚本,修改对应的url即可;

3. 如果需要爬取的评论不到1000条,这个工具会非常称手,所有的数据完全自动下载;

使用的注意点:

1. 抓取过一次的数据会有记录,立刻再次抓取将不会保存,建议关闭浏览器重新打开后再试;

2. 抓取数量:1000条以内没有问题,可能是京东按照IP直接阻止了更多的爬取;

如果你的英语水平不错,可以尝试阅读官方文档,进一步学习和定制自己的爬虫。

官方教程:https://www.webscraper.io/documentation

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python字典操作简明总结
Apr 13 Python
Python的SQLAlchemy框架使用入门
Apr 29 Python
使用实现XlsxWriter创建Excel文件并编辑
May 04 Python
解决python报错MemoryError的问题
Jun 26 Python
用python统计代码行的示例(包括空行和注释)
Jul 24 Python
Python调用adb命令实现对多台设备同时进行reboot的方法
Oct 15 Python
python 读取修改pcap包的例子
Jul 23 Python
python标准库os库的函数介绍
Feb 12 Python
在Python 的线程中运行协程的方法
Feb 24 Python
python json.dumps() json.dump()的区别详解
Jul 14 Python
详解Django ORM引发的数据库N+1性能问题
Oct 12 Python
python运行脚本文件的三种方法实例
Jun 25 Python
Python导入数值型Excel数据并生成矩阵操作
Jun 09 #Python
Python带参数的装饰器运行原理解析
Jun 09 #Python
Python sorted对list和dict排序
Jun 09 #Python
python初步实现word2vec操作
Jun 09 #Python
Python生成随机验证码代码实例解析
Jun 09 #Python
在python下实现word2vec词向量训练与加载实例
Jun 09 #Python
Python实现寻找回文数字过程解析
Jun 09 #Python
You might like
PHP 时间转换Unix时间戳代码
2010/01/22 PHP
php之XML转数组函数的详解
2013/06/07 PHP
ThinkPHP模板判断输出Defined标签用法详解
2014/06/30 PHP
php中动态修改ini配置
2014/10/14 PHP
PHP编程中的__clone()方法使用详解
2015/11/27 PHP
PHP文件缓存smarty模板应用实例分析
2016/02/26 PHP
php支持断点续传、分块下载的类
2016/05/02 PHP
PHP实现用户登录的案例代码
2018/05/10 PHP
Laravel中错误与异常处理的用法示例
2018/09/16 PHP
jquery 简短几句代码实现给元素动态添加及获取提示信息
2011/09/01 Javascript
浏览器加载、渲染和解析过程黑箱简析
2012/11/29 Javascript
javascript二维数组转置实例
2015/01/22 Javascript
javascript回到顶部特效
2016/07/30 Javascript
JS返回只包含数字类型的数组实例分析
2016/12/16 Javascript
微信小程序 数据遍历的实现
2017/04/05 Javascript
利用js的闭包原理做对象封装及调用方法
2017/04/07 Javascript
微信小程序手机号码验证功能的实例代码
2018/08/28 Javascript
jQuery实现表格隔行换色
2018/09/01 jQuery
JavaScript学习笔记之数组基本操作示例
2019/01/09 Javascript
[03:07]DOTA2英雄基础教程 冰霜诅咒极寒幽魂
2013/12/06 DOTA
Python中pip安装非PyPI官网第三方库的方法
2015/06/02 Python
python实现简单淘宝秒杀功能
2018/05/03 Python
python实现三次样条插值
2018/12/17 Python
Python读取分割压缩TXT文本文件实例
2020/02/14 Python
VSCode基础使用与VSCode调试python程序入门的图文教程
2020/03/30 Python
Django设置Postgresql的操作
2020/05/14 Python
Python logging模块进行封装实现原理解析
2020/08/07 Python
CSS中垂直居中的简单实现方法
2015/07/06 HTML / CSS
基于Canvas+Vue的弹幕组件的实现
2019/07/23 HTML / CSS
社区党建工作汇报材料
2014/10/27 职场文书
公司2015年终工作总结
2015/05/26 职场文书
python自然语言处理之字典树知识总结
2021/04/25 Python
Keras在mnist上的CNN实践,并且自定义loss函数曲线图操作
2021/05/25 Python
JavaScript阻止事件冒泡的方法
2021/12/06 Javascript
Matplotlib绘制条形图的方法你知道吗
2022/03/21 Python
Ubuntu Server 安装Tomcat并配置systemctl
2022/04/28 Servers