Python大批量搜索引擎图像爬虫工具详解


Posted in Python onNovember 16, 2020

python图像爬虫包

最近在做一些图像分类的任务时,为了扩充我们的数据集,需要在搜索引擎下爬取额外的图片来扩充我们的训练集。搞人工智能真的是太难了?,居然还要会爬虫。当然网上也有许多python写的爬虫工具,当然,用多了就知道,这些爬虫工具不是不能进行多关键字的爬虫就是用不了,或者是一会就被网站检测到给停止了,最后发现了一款非常好用的python图像爬虫库icrawler,直接就能通过pip进行安装,使用时几行代码就能搞定,简直不要太爽。
话不多说,附上安装命令:

pip install icrawler

下面附上我爬虫的代码:

from icrawler.builtin import BaiduImageCrawler 
from icrawler.builtin import BingImageCrawler 
from icrawler.builtin import GoogleImageCrawler 
#需要爬虫的关键字
list_word = ['抽烟 行人','吸烟 行人','接电话 行人','打电话 行人', '玩手机 行人']
for word in list_word:
  #bing爬虫
  #保存路径
  bing_storage = {'root_dir': 'bing\\'+word}
  #从上到下依次是解析器线程数,下载线程数,还有上面设置的保存路径
  bing_crawler = BingImageCrawler(parser_threads=2,
                  downloader_threads=4,
                  storage=bing_storage)
  #开始爬虫,关键字+图片数量
  bing_crawler.crawl(keyword=word,
            max_num=2000)

  #百度爬虫
  # baidu_storage = {'root_dir': 'baidu\\' + word}
  # baidu_crawler = BaiduImageCrawler(parser_threads=2,
  #                  downloader_threads=4,
  #                  storage=baidu_storage)
  # baidu_crawler.crawl(keyword=word,
  #           max_num=2000)


  # google爬虫
  # google_storage = {'root_dir': '‘google\\' + word}
  # google_crawler = GoogleImageCrawler(parser_threads=4,
  #                  downloader_threads=4,
  #                  storage=google_storage)
  # google_crawler.crawl(keyword=word,
  #           max_num=2000)

这个爬虫库能够实现多线程,多搜索引擎(百度、必应、谷歌)的爬虫,当然谷歌爬虫需要梯子。这里展示的是基于必应的爬虫,百度和谷歌的代码也在下面,只不过被我屏蔽掉了,当然也可以三个同时全开!这样的python爬虫库用起来简直不要太爽。

到此这篇关于Python大批量搜索引擎图像爬虫工具的文章就介绍到这了,更多相关Python搜索引擎图像爬虫内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python实现从订阅源下载图片的方法
Mar 11 Python
Python的Flask框架标配模板引擎Jinja2的使用教程
Jul 12 Python
Python合并字典键值并去除重复元素的实例
Dec 18 Python
Python变量赋值的秘密分享
Apr 03 Python
PyQt5实现无边框窗口的标题拖动和窗口缩放
Apr 19 Python
在Python中给Nan值更改为0的方法
Oct 30 Python
Python中函数参数匹配模型详解
Jun 09 Python
python opencv鼠标事件实现画框圈定目标获取坐标信息
Apr 18 Python
用python画一只可爱的皮卡丘实例
Nov 21 Python
django框架cookie和session用法实例详解
Dec 10 Python
PyCharm无法引用自身项目解决方式
Feb 12 Python
python打包多类型文件的操作方法
Sep 21 Python
详解Python中list[::-1]的几种用法
Nov 16 #Python
使用Pytorch搭建模型的步骤
Nov 16 #Python
Python图像读写方法对比
Nov 16 #Python
python3中编码获取网页的实例方法
Nov 16 #Python
Python3中小括号()、中括号[]、花括号{}的区别详解
Nov 15 #Python
Python根据URL地址下载文件并保存至对应目录的实现
Nov 15 #Python
python re的findall和finditer的区别详解
Nov 15 #Python
You might like
关于php内存不够用的快速解决方法
2013/10/26 PHP
PHP网站开发中常用的8个小技巧
2015/02/13 PHP
php获取文件名后缀常用方法小结
2015/02/24 PHP
PHP中的session安全吗?
2016/01/22 PHP
PHP实现原比例生成缩略图的方法
2016/02/03 PHP
php监测数据是否成功插入到Mysql数据库的方法
2016/11/25 PHP
如何让PHP编码更加好看利于阅读
2019/05/12 PHP
浅析PHP echo 和 print 语句
2020/06/30 PHP
[JS源码]超长文章自动分页(客户端版)
2007/01/09 Javascript
javascript Array.remove() 数组删除
2009/08/06 Javascript
基于zepto的移动端轻量级日期插件--date_picker
2016/03/04 Javascript
JS从数组中随机取出几个数组元素的方法
2016/08/02 Javascript
JavaScript设置名字输入不合法的实现方法
2017/05/23 Javascript
vue-devtools的安装步骤
2018/04/23 Javascript
vue实现选项卡及选项卡切换效果
2018/04/24 Javascript
vscode下vue项目中eslint的使用方法
2019/01/13 Javascript
微信小程序开发的基本流程步骤
2019/01/31 Javascript
微信小程序 冒泡事件原理解析
2019/09/27 Javascript
vue 自定义右键样式的实例代码
2019/11/06 Javascript
vue中 v-for循环的用法详解
2020/02/19 Javascript
[48:45]Ti4 循环赛第二日 NEWBEE vs EG
2014/07/11 DOTA
Python深入学习之对象的属性
2014/08/31 Python
Python创建系统目录的方法
2015/03/11 Python
Python实现基于TCP UDP协议的IPv4 IPv6模式客户端和服务端功能示例
2018/03/22 Python
利用scrapy将爬到的数据保存到mysql(防止重复)
2018/03/31 Python
python算法题 链表反转详解
2019/07/02 Python
python实现mask矩阵示例(根据列表所给元素)
2020/07/30 Python
基于Python爬取搜狐证券股票过程解析
2020/11/18 Python
python实现三种随机请求头方式
2021/01/05 Python
浅析pandas随机排列与随机抽样
2021/01/22 Python
宝塔面板出现“open_basedir restriction in effect. ”的解决方法
2021/03/14 PHP
一家外企的面试题目(C/C++面试题,C语言面试题)
2014/03/24 面试题
建材业务员岗位职责
2013/12/08 职场文书
党性教育心得体会
2014/09/03 职场文书
临时用工协议书范本
2014/10/29 职场文书
工作一年自我鉴定
2019/06/20 职场文书