Python使用Chrome插件实现爬虫过程图解


Posted in Python onJune 09, 2020

做电商时,消费者对商品的评论是很重要的,但是不会写代码怎么办?这里有个Chrome插件可以做到简单的数据爬取,一句代码都不用写。下面给大家展示部分抓取后的数据:

Python使用Chrome插件实现爬虫过程图解

可以看到,抓取的地址,评论人,评论内容,时间,产品颜色都已经抓取下来了。那么,爬取这些数据需要哪些工具呢?就两个:

1. Chrome浏览器;

2. 插件:Web Scraper

插件下载地址:https://chromecj.com/productivity/2018-05/942.html

最后,如果你想自己动手抓取一下,这里是这次抓取的详细过程:

1. 首先,复制如下的代码,对,你不需要写代码,但是为了便于上手,复制代码还是需要的,后续可以自己定制和选择,不需要写代码。

{
  "_id": "jdreview",
  "startUrl": [
    "https://item.jd.com/100000680365.html#comment"
  ],
  "selectors": [
    {
      "id": "user",
      "type": "SelectorText",
      "selector": "div.user-info",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": 0
    },
    {
      "id": "comments",
      "type": "SelectorText",
      "selector": "div.comment-column > p.comment-con",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": 0
    },
    {
      "id": "time",
      "type": "SelectorText",
      "selector": "div.comment-message:nth-of-type(5) span:nth-of-type(4), div.order-info span:nth-of-type(4)",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": "0"
    },
    {
      "id": "color",
      "type": "SelectorText",
      "selector": "div.order-info span:nth-of-type(1)",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": 0
    },
    {
      "id": "main",
      "type": "SelectorElementClick",
      "selector": "div.comment-item",
      "parentSelectors": [
        "_root"
      ],
      "multiple": true,
      "delay": "10000",
      "clickElementSelector": "div.com-table-footer a.ui-pager-next",
      "clickType": "clickMore",
      "discardInitialElements": false,
      "clickElementUniquenessType": "uniqueHTMLText"
    }
  ]
}

2. 然后打开chrome浏览器,在任意页面同时按下Ctrl+Shift+i,在弹出的窗口中找到Web Scraper,如下:

Python使用Chrome插件实现爬虫过程图解

3. 如下

Python使用Chrome插件实现爬虫过程图解

4. 如图,粘贴上述的代码:

Python使用Chrome插件实现爬虫过程图解

5. 如图,如果需要定制网址,注意替代一下,网址后面的#comment是直达评论的链接,不能去掉:

Python使用Chrome插件实现爬虫过程图解

6. 如图:

Python使用Chrome插件实现爬虫过程图解

7. 如图:

Python使用Chrome插件实现爬虫过程图解

8. 如图,点击Scrape后,会自动运行打开需要抓取得页面,不要关闭窗口,静静等待完成,完成后右下方会提示完成,一般1000条以内的评论不会有问题:

Python使用Chrome插件实现爬虫过程图解

9. 最后,点击下载到电脑,数据保存好。

Python使用Chrome插件实现爬虫过程图解

使用这个工具的好处是:

1. 不需要编程;

2. 京东的评论基本可以通用此脚本,修改对应的url即可;

3. 如果需要爬取的评论不到1000条,这个工具会非常称手,所有的数据完全自动下载;

使用的注意点:

1. 抓取过一次的数据会有记录,立刻再次抓取将不会保存,建议关闭浏览器重新打开后再试;

2. 抓取数量:1000条以内没有问题,可能是京东按照IP直接阻止了更多的爬取;

如果你的英语水平不错,可以尝试阅读官方文档,进一步学习和定制自己的爬虫。

官方教程:https://www.webscraper.io/documentation

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python合并文本文件示例
Feb 07 Python
python实现数组插入新元素的方法
May 22 Python
python 环境变量和import模块导入方法(详解)
Jul 11 Python
Python实现随机选择元素功能
Sep 14 Python
利用Python批量提取Win10锁屏壁纸实战教程
Mar 27 Python
django 删除数据库表后重新同步的方法
May 27 Python
python爬虫自动创建文件夹的功能
Aug 01 Python
python实现汉诺塔算法
Mar 01 Python
Python中时间datetime的处理与转换用法总结
Feb 18 Python
Python内置random模块生成随机数的方法
May 31 Python
详解Python3定时器任务代码
Sep 23 Python
Python实战之用tkinter库做一个鼠标模拟点击器
Apr 27 Python
Python导入数值型Excel数据并生成矩阵操作
Jun 09 #Python
Python带参数的装饰器运行原理解析
Jun 09 #Python
Python sorted对list和dict排序
Jun 09 #Python
python初步实现word2vec操作
Jun 09 #Python
Python生成随机验证码代码实例解析
Jun 09 #Python
在python下实现word2vec词向量训练与加载实例
Jun 09 #Python
Python实现寻找回文数字过程解析
Jun 09 #Python
You might like
PHP数据库操作面向对象的优点
2006/10/09 PHP
php 输出双引号"与单引号'的方法
2010/05/09 PHP
PHP中文件缓存转内存缓存的方法
2011/12/06 PHP
PHP实现自动发送邮件功能代码(qq 邮箱)
2017/08/18 PHP
使用apply方法处理数组的三个技巧[译]
2012/09/20 Javascript
JS动态添加Table的TR,TD实现方法
2015/01/28 Javascript
JavaScript获得url所有参数键值表的方法
2015/03/21 Javascript
javascript实现点击提交按钮后显示loading的方法
2015/07/03 Javascript
jQuery Validate验证框架经典大全
2015/09/23 Javascript
浅谈javascript 函数表达式和函数声明的区别
2016/01/05 Javascript
js实现上传图片预览方法
2016/10/25 Javascript
微信小程序 实例开发总结
2017/04/26 Javascript
JS与CSS3实现图片响应鼠标移动放大效果示例
2018/05/04 Javascript
jsonp实现百度下拉框功能的方法分析
2019/05/10 Javascript
jQuery利用cookie 实现本地收藏功能(不重复无需多次命名)
2019/11/07 jQuery
解决vue动态路由异步加载import组件,加载不到module的问题
2020/07/26 Javascript
[11:44]Ti9 OG夺冠时刻
2019/08/25 DOTA
[01:04:20]完美世界DOTA2联赛PWL S2 LBZS vs Forest 第一场 11.29
2020/12/02 DOTA
python验证码识别教程之滑动验证码
2018/06/04 Python
使用Python为中秋节绘制一块美味的月饼
2019/09/11 Python
python中常见错误及解决方法
2020/06/21 Python
浅谈keras 模型用于预测时的注意事项
2020/06/27 Python
jupyter使用自动补全和切换默认浏览器的方法
2020/11/18 Python
Django扫码抽奖平台的配置过程详解
2021/01/14 Python
荷兰优雅女装网上商店:Heine
2016/11/14 全球购物
Foreo国际站:Foreo International
2018/10/29 全球购物
iHerb俄罗斯:维生素、补品和天然产品
2020/07/09 全球购物
英文版餐饮运营管理求职信
2013/11/06 职场文书
体育之星事迹材料
2014/05/11 职场文书
汽车维修求职信
2014/06/15 职场文书
运动会广播稿诗歌版
2014/09/12 职场文书
2014年组织委员工作总结
2014/12/01 职场文书
狮子林导游词
2015/02/03 职场文书
2015年护士节活动总结
2015/02/10 职场文书
求职信如何撰写?
2019/05/22 职场文书
SQL模糊查询报:ORA-00909:参数个数无效问题的解决
2021/06/21 Oracle