编程 Python

Python大批量搜索引擎图像爬虫工具详解

Posted in Python onNovember 16, 2020

python图像爬虫包

最近在做一些图像分类的任务时，为了扩充我们的数据集，需要在搜索引擎下爬取额外的图片来扩充我们的训练集。搞人工智能真的是太难了?，居然还要会爬虫。当然网上也有许多python写的爬虫工具，当然，用多了就知道，这些爬虫工具不是不能进行多关键字的爬虫就是用不了，或者是一会就被网站检测到给停止了，最后发现了一款非常好用的python图像爬虫库icrawler，直接就能通过pip进行安装，使用时几行代码就能搞定，简直不要太爽。
话不多说，附上安装命令：

pip install icrawler

下面附上我爬虫的代码：

from icrawler.builtin import BaiduImageCrawler 
from icrawler.builtin import BingImageCrawler 
from icrawler.builtin import GoogleImageCrawler 
#需要爬虫的关键字
list_word = ['抽烟 行人','吸烟 行人','接电话 行人','打电话 行人', '玩手机 行人']
for word in list_word:
  #bing爬虫
  #保存路径
  bing_storage = {'root_dir': 'bing\\'+word}
  #从上到下依次是解析器线程数，下载线程数，还有上面设置的保存路径
  bing_crawler = BingImageCrawler(parser_threads=2,
                  downloader_threads=4,
                  storage=bing_storage)
  #开始爬虫，关键字+图片数量
  bing_crawler.crawl(keyword=word,
            max_num=2000)

  #百度爬虫
  # baidu_storage = {'root_dir': 'baidu\\' + word}
  # baidu_crawler = BaiduImageCrawler(parser_threads=2,
  #                  downloader_threads=4,
  #                  storage=baidu_storage)
  # baidu_crawler.crawl(keyword=word,
  #           max_num=2000)


  # google爬虫
  # google_storage = {'root_dir': '‘google\\' + word}
  # google_crawler = GoogleImageCrawler(parser_threads=4,
  #                  downloader_threads=4,
  #                  storage=google_storage)
  # google_crawler.crawl(keyword=word,
  #           max_num=2000)

这个爬虫库能够实现多线程，多搜索引擎（百度、必应、谷歌）的爬虫，当然谷歌爬虫需要梯子。这里展示的是基于必应的爬虫，百度和谷歌的代码也在下面，只不过被我屏蔽掉了，当然也可以三个同时全开！这样的python爬虫库用起来简直不要太爽。

到此这篇关于Python大批量搜索引擎图像爬虫工具的文章就介绍到这了,更多相关Python搜索引擎图像爬虫内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

Python大批量搜索引擎图像爬虫工具详解

- Author -

aabbcccddd01

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python实现从订阅源下载图片的方法

Mar 11 Python

Python的Flask框架标配模板引擎Jinja2的使用教程

Jul 12 Python

Python合并字典键值并去除重复元素的实例

Dec 18 Python

Python变量赋值的秘密分享

Apr 03 Python

PyQt5实现无边框窗口的标题拖动和窗口缩放

Apr 19 Python

在Python中给Nan值更改为0的方法

Oct 30 Python

Python中函数参数匹配模型详解

Jun 09 Python

python opencv鼠标事件实现画框圈定目标获取坐标信息

Apr 18 Python

用python画一只可爱的皮卡丘实例

Nov 21 Python

django框架cookie和session用法实例详解

Dec 10 Python

PyCharm无法引用自身项目解决方式

Feb 12 Python

python打包多类型文件的操作方法

Sep 21 Python

详解Python中list[::-1]的几种用法

Nov 16 #Python

使用Pytorch搭建模型的步骤

Nov 16 #Python

Python图像读写方法对比

Nov 16 #Python

python3中编码获取网页的实例方法

Nov 16 #Python

Python3中小括号()、中括号[]、花括号{}的区别详解

Nov 15 #Python

Python根据URL地址下载文件并保存至对应目录的实现

Nov 15 #Python

python re的findall和finditer的区别详解

Nov 15 #Python

You might like

关于php内存不够用的快速解决方法

2013/10/26 PHP

PHP网站开发中常用的8个小技巧

2015/02/13 PHP

php获取文件名后缀常用方法小结

2015/02/24 PHP

PHP中的session安全吗？

2016/01/22 PHP

PHP实现原比例生成缩略图的方法

2016/02/03 PHP

php监测数据是否成功插入到Mysql数据库的方法

2016/11/25 PHP

如何让PHP编码更加好看利于阅读

2019/05/12 PHP

浅析PHP echo 和 print 语句

2020/06/30 PHP

[JS源码]超长文章自动分页（客户端版）

2007/01/09 Javascript

javascript Array.remove() 数组删除

2009/08/06 Javascript

基于zepto的移动端轻量级日期插件--date_picker

2016/03/04 Javascript

JS从数组中随机取出几个数组元素的方法

2016/08/02 Javascript

JavaScript设置名字输入不合法的实现方法

2017/05/23 Javascript

vue-devtools的安装步骤

2018/04/23 Javascript

vue实现选项卡及选项卡切换效果

2018/04/24 Javascript

vscode下vue项目中eslint的使用方法

2019/01/13 Javascript

微信小程序开发的基本流程步骤

2019/01/31 Javascript

微信小程序冒泡事件原理解析

2019/09/27 Javascript

vue 自定义右键样式的实例代码

2019/11/06 Javascript

vue中 v-for循环的用法详解

2020/02/19 Javascript

[48:45]Ti4 循环赛第二日 NEWBEE vs EG

2014/07/11 DOTA

Python深入学习之对象的属性

2014/08/31 Python

Python创建系统目录的方法

2015/03/11 Python

Python实现基于TCP UDP协议的IPv4 IPv6模式客户端和服务端功能示例

2018/03/22 Python

利用scrapy将爬到的数据保存到mysql（防止重复）

2018/03/31 Python

python算法题链表反转详解

2019/07/02 Python

python实现mask矩阵示例(根据列表所给元素)

2020/07/30 Python

基于Python爬取搜狐证券股票过程解析

2020/11/18 Python

python实现三种随机请求头方式

2021/01/05 Python

浅析pandas随机排列与随机抽样

2021/01/22 Python

宝塔面板出现“open_basedir restriction in effect. ”的解决方法

2021/03/14 PHP

一家外企的面试题目(C/C++面试题,C语言面试题)

2014/03/24 面试题

建材业务员岗位职责

2013/12/08 职场文书

党性教育心得体会

2014/09/03 职场文书

临时用工协议书范本

2014/10/29 职场文书

工作一年自我鉴定

2019/06/20 职场文书