Python大批量搜索引擎图像爬虫工具详解


Posted in Python onNovember 16, 2020

python图像爬虫包

最近在做一些图像分类的任务时,为了扩充我们的数据集,需要在搜索引擎下爬取额外的图片来扩充我们的训练集。搞人工智能真的是太难了?,居然还要会爬虫。当然网上也有许多python写的爬虫工具,当然,用多了就知道,这些爬虫工具不是不能进行多关键字的爬虫就是用不了,或者是一会就被网站检测到给停止了,最后发现了一款非常好用的python图像爬虫库icrawler,直接就能通过pip进行安装,使用时几行代码就能搞定,简直不要太爽。
话不多说,附上安装命令:

pip install icrawler

下面附上我爬虫的代码:

from icrawler.builtin import BaiduImageCrawler 
from icrawler.builtin import BingImageCrawler 
from icrawler.builtin import GoogleImageCrawler 
#需要爬虫的关键字
list_word = ['抽烟 行人','吸烟 行人','接电话 行人','打电话 行人', '玩手机 行人']
for word in list_word:
  #bing爬虫
  #保存路径
  bing_storage = {'root_dir': 'bing\\'+word}
  #从上到下依次是解析器线程数,下载线程数,还有上面设置的保存路径
  bing_crawler = BingImageCrawler(parser_threads=2,
                  downloader_threads=4,
                  storage=bing_storage)
  #开始爬虫,关键字+图片数量
  bing_crawler.crawl(keyword=word,
            max_num=2000)

  #百度爬虫
  # baidu_storage = {'root_dir': 'baidu\\' + word}
  # baidu_crawler = BaiduImageCrawler(parser_threads=2,
  #                  downloader_threads=4,
  #                  storage=baidu_storage)
  # baidu_crawler.crawl(keyword=word,
  #           max_num=2000)


  # google爬虫
  # google_storage = {'root_dir': '‘google\\' + word}
  # google_crawler = GoogleImageCrawler(parser_threads=4,
  #                  downloader_threads=4,
  #                  storage=google_storage)
  # google_crawler.crawl(keyword=word,
  #           max_num=2000)

这个爬虫库能够实现多线程,多搜索引擎(百度、必应、谷歌)的爬虫,当然谷歌爬虫需要梯子。这里展示的是基于必应的爬虫,百度和谷歌的代码也在下面,只不过被我屏蔽掉了,当然也可以三个同时全开!这样的python爬虫库用起来简直不要太爽。

到此这篇关于Python大批量搜索引擎图像爬虫工具的文章就介绍到这了,更多相关Python搜索引擎图像爬虫内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
跟老齐学Python之正规地说一句话
Sep 28 Python
Python中用于转换字母为小写的lower()方法使用简介
May 19 Python
python基于隐马尔可夫模型实现中文拼音输入
Apr 01 Python
一百行python代码将图片转成字符画
Feb 19 Python
django admin后台添加导出excel功能示例代码
May 15 Python
Python使用pyautocad+openpyxl处理cad文件示例
Jul 11 Python
pandas的to_datetime时间转换使用及学习心得
Aug 11 Python
Python读取csv文件实例解析
Dec 30 Python
pycharm 激活码及使用方式的详细教程
May 12 Python
Python爬虫实现百度翻译功能过程详解
May 29 Python
python中@contextmanager实例用法
Feb 07 Python
python神经网络 使用Keras构建RNN训练
May 04 Python
详解Python中list[::-1]的几种用法
Nov 16 #Python
使用Pytorch搭建模型的步骤
Nov 16 #Python
Python图像读写方法对比
Nov 16 #Python
python3中编码获取网页的实例方法
Nov 16 #Python
Python3中小括号()、中括号[]、花括号{}的区别详解
Nov 15 #Python
Python根据URL地址下载文件并保存至对应目录的实现
Nov 15 #Python
python re的findall和finditer的区别详解
Nov 15 #Python
You might like
无线电广播与收音机发展的历史回眸
2021/03/02 无线电
PHP新手上路(十)
2006/10/09 PHP
php源码分析之DZX1.5随机数函数random用法
2015/06/17 PHP
Javascript 个人笔记(没有整理,很乱)
2007/07/07 Javascript
JavaScript入门教程(10) 认识其他对象
2009/01/31 Javascript
html文本框提示效果的示例代码
2014/06/28 Javascript
JavaScript针对网页节点的增删改查用法实例
2015/02/02 Javascript
JS+CSS实现滑动切换tab菜单效果
2015/08/25 Javascript
jQuery实现div随意拖动的实例代码(通用代码)
2016/01/28 Javascript
JS触摸与手势事件详解
2017/05/09 Javascript
layui弹出层效果实现代码
2017/05/19 Javascript
JS如何实现在页面上快速定位(锚点跳转问题)
2017/08/14 Javascript
通过源码分析Vue的双向数据绑定详解
2017/09/24 Javascript
基于Vue2.0+ElementUI实现表格翻页功能
2017/10/23 Javascript
Vue实现一个图片懒加载插件
2019/03/11 Javascript
使用jQuery mobile NuGet让你的网站在移动设备上同样精彩
2019/06/18 jQuery
JS实现继承的几种常用方式示例
2019/06/22 Javascript
基于Vue CSR的微前端实现方案实践
2020/05/27 Javascript
js闭包和垃圾回收机制示例详解
2021/03/01 Javascript
[30:55]完美世界DOTA2联赛PWL S2 Magma vs LBZS 第二场 11.18
2020/11/18 DOTA
Python实现list反转实例汇总
2014/11/11 Python
Python 性能优化技巧总结
2016/11/01 Python
python找出列表中大于某个阈值的数据段示例
2019/11/24 Python
pandas中read_csv的缺失值处理方式
2019/12/19 Python
发现两个有趣的CSS3动画效果
2013/08/14 HTML / CSS
行政人员工作职责
2013/12/05 职场文书
业务员岗位职责范本
2013/12/15 职场文书
销售工作岗位职责
2013/12/24 职场文书
优秀团队获奖感言
2014/02/19 职场文书
外贸会计专业自荐信
2014/06/22 职场文书
2014党员民主评议个人总结
2014/09/10 职场文书
教师党员学习群众路线心得体会
2014/11/04 职场文书
2014年创卫工作总结
2014/11/24 职场文书
幼儿园小班家长评语
2014/12/30 职场文书
聚会通知怎么写
2015/04/23 职场文书
《怀念母亲》教学反思
2016/02/19 职场文书