Python使用Chrome插件实现爬虫过程图解


Posted in Python onJune 09, 2020

做电商时,消费者对商品的评论是很重要的,但是不会写代码怎么办?这里有个Chrome插件可以做到简单的数据爬取,一句代码都不用写。下面给大家展示部分抓取后的数据:

Python使用Chrome插件实现爬虫过程图解

可以看到,抓取的地址,评论人,评论内容,时间,产品颜色都已经抓取下来了。那么,爬取这些数据需要哪些工具呢?就两个:

1. Chrome浏览器;

2. 插件:Web Scraper

插件下载地址:https://chromecj.com/productivity/2018-05/942.html

最后,如果你想自己动手抓取一下,这里是这次抓取的详细过程:

1. 首先,复制如下的代码,对,你不需要写代码,但是为了便于上手,复制代码还是需要的,后续可以自己定制和选择,不需要写代码。

{
  "_id": "jdreview",
  "startUrl": [
    "https://item.jd.com/100000680365.html#comment"
  ],
  "selectors": [
    {
      "id": "user",
      "type": "SelectorText",
      "selector": "div.user-info",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": 0
    },
    {
      "id": "comments",
      "type": "SelectorText",
      "selector": "div.comment-column > p.comment-con",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": 0
    },
    {
      "id": "time",
      "type": "SelectorText",
      "selector": "div.comment-message:nth-of-type(5) span:nth-of-type(4), div.order-info span:nth-of-type(4)",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": "0"
    },
    {
      "id": "color",
      "type": "SelectorText",
      "selector": "div.order-info span:nth-of-type(1)",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": 0
    },
    {
      "id": "main",
      "type": "SelectorElementClick",
      "selector": "div.comment-item",
      "parentSelectors": [
        "_root"
      ],
      "multiple": true,
      "delay": "10000",
      "clickElementSelector": "div.com-table-footer a.ui-pager-next",
      "clickType": "clickMore",
      "discardInitialElements": false,
      "clickElementUniquenessType": "uniqueHTMLText"
    }
  ]
}

2. 然后打开chrome浏览器,在任意页面同时按下Ctrl+Shift+i,在弹出的窗口中找到Web Scraper,如下:

Python使用Chrome插件实现爬虫过程图解

3. 如下

Python使用Chrome插件实现爬虫过程图解

4. 如图,粘贴上述的代码:

Python使用Chrome插件实现爬虫过程图解

5. 如图,如果需要定制网址,注意替代一下,网址后面的#comment是直达评论的链接,不能去掉:

Python使用Chrome插件实现爬虫过程图解

6. 如图:

Python使用Chrome插件实现爬虫过程图解

7. 如图:

Python使用Chrome插件实现爬虫过程图解

8. 如图,点击Scrape后,会自动运行打开需要抓取得页面,不要关闭窗口,静静等待完成,完成后右下方会提示完成,一般1000条以内的评论不会有问题:

Python使用Chrome插件实现爬虫过程图解

9. 最后,点击下载到电脑,数据保存好。

Python使用Chrome插件实现爬虫过程图解

使用这个工具的好处是:

1. 不需要编程;

2. 京东的评论基本可以通用此脚本,修改对应的url即可;

3. 如果需要爬取的评论不到1000条,这个工具会非常称手,所有的数据完全自动下载;

使用的注意点:

1. 抓取过一次的数据会有记录,立刻再次抓取将不会保存,建议关闭浏览器重新打开后再试;

2. 抓取数量:1000条以内没有问题,可能是京东按照IP直接阻止了更多的爬取;

如果你的英语水平不错,可以尝试阅读官方文档,进一步学习和定制自己的爬虫。

官方教程:https://www.webscraper.io/documentation

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python Socket编程入门教程
Jul 11 Python
Python比较文件夹比另一同名文件夹多出的文件并复制出来的方法
Mar 05 Python
在服务器端实现无间断部署Python应用的教程
Apr 16 Python
Python的MongoDB模块PyMongo操作方法集锦
Jan 05 Python
window下eclipse安装python插件教程
Apr 24 Python
[原创]教女朋友学Python(一)运行环境搭建
Nov 29 Python
详解python中的装饰器
Jul 10 Python
对Django项目中的ORM映射与模糊查询的使用详解
Jul 18 Python
Python字符串中添加、插入特定字符的方法
Sep 10 Python
python sorted函数的小练习及解答
Sep 18 Python
pytorch .detach() .detach_() 和 .data用于切断反向传播的实现
Dec 27 Python
python 获取域名到期时间的方法步骤
Feb 10 Python
Python导入数值型Excel数据并生成矩阵操作
Jun 09 #Python
Python带参数的装饰器运行原理解析
Jun 09 #Python
Python sorted对list和dict排序
Jun 09 #Python
python初步实现word2vec操作
Jun 09 #Python
Python生成随机验证码代码实例解析
Jun 09 #Python
在python下实现word2vec词向量训练与加载实例
Jun 09 #Python
Python实现寻找回文数字过程解析
Jun 09 #Python
You might like
解析php中array_merge与array+array的区别
2013/06/21 PHP
PHP实现留言板功能的详细代码
2017/03/25 PHP
JavaScript 申明函数的三种方法 每个函数就是一个对象(一)
2009/12/04 Javascript
Jquery 选中表格一列并对表格排序实现原理
2012/12/15 Javascript
封装了一个支持匿名函数的Javascript事件监听器
2014/06/05 Javascript
使用jQuery实现input数值增量和减量的方法
2015/01/24 Javascript
JavaScript 对象深入学习总结(经典)
2015/09/29 Javascript
Node.JS中事件轮询(Event Loop)的解析
2017/02/25 Javascript
Angular.js实现动态加载组件详解
2017/05/28 Javascript
angular+ionic返回上一页并刷新页面
2017/08/08 Javascript
详解基于webpack2.x的vue2.x的多页面站点
2017/08/21 Javascript
JavaScript定义函数的三种实现方法
2017/09/23 Javascript
webpack 3.X学习之多页面打包的方法
2018/09/04 Javascript
Vue.js 十五分钟入门图文教程
2018/09/12 Javascript
Vue 实现监听窗口关闭事件,并在窗口关闭前发送请求
2020/09/01 Javascript
js+css3实现简单时钟特效
2020/09/13 Javascript
[01:38]DOTA2辉夜杯 欢乐的观众现场采访
2015/12/26 DOTA
Python Tkinter GUI编程入门介绍
2015/03/10 Python
pymssql数据库操作MSSQL2005实例分析
2015/05/25 Python
在Python中marshal对象序列化的相关知识
2015/07/01 Python
Python实例一个类背后发生了什么
2016/02/09 Python
使用Nginx+uWsgi实现Python的Django框架站点动静分离
2016/03/21 Python
Python实现自动登录百度空间的方法
2017/06/10 Python
python的移位操作实现详解
2019/08/21 Python
针对HTML5的Web Worker使用攻略
2015/07/12 HTML / CSS
OSPREY LONDON官网:英国本土皮具品牌
2019/05/31 全球购物
如何查找网页漏洞
2016/06/22 面试题
2014年党的群众路线教育实践活动总结
2014/04/25 职场文书
诚信贷款承诺书
2014/05/30 职场文书
公司的门卫岗位职责
2014/09/09 职场文书
2014幼儿园小班工作总结
2014/11/10 职场文书
2014小学数学教师个人工作总结
2014/12/18 职场文书
辞职信如何写
2015/02/27 职场文书
社区重阳节活动总结
2015/03/24 职场文书
重阳节座谈会主持词
2015/07/03 职场文书
简单谈谈Python面向对象的相关知识
2021/06/28 Python