Python大批量搜索引擎图像爬虫工具详解


Posted in Python onNovember 16, 2020

python图像爬虫包

最近在做一些图像分类的任务时,为了扩充我们的数据集,需要在搜索引擎下爬取额外的图片来扩充我们的训练集。搞人工智能真的是太难了?,居然还要会爬虫。当然网上也有许多python写的爬虫工具,当然,用多了就知道,这些爬虫工具不是不能进行多关键字的爬虫就是用不了,或者是一会就被网站检测到给停止了,最后发现了一款非常好用的python图像爬虫库icrawler,直接就能通过pip进行安装,使用时几行代码就能搞定,简直不要太爽。
话不多说,附上安装命令:

pip install icrawler

下面附上我爬虫的代码:

from icrawler.builtin import BaiduImageCrawler 
from icrawler.builtin import BingImageCrawler 
from icrawler.builtin import GoogleImageCrawler 
#需要爬虫的关键字
list_word = ['抽烟 行人','吸烟 行人','接电话 行人','打电话 行人', '玩手机 行人']
for word in list_word:
  #bing爬虫
  #保存路径
  bing_storage = {'root_dir': 'bing\\'+word}
  #从上到下依次是解析器线程数,下载线程数,还有上面设置的保存路径
  bing_crawler = BingImageCrawler(parser_threads=2,
                  downloader_threads=4,
                  storage=bing_storage)
  #开始爬虫,关键字+图片数量
  bing_crawler.crawl(keyword=word,
            max_num=2000)

  #百度爬虫
  # baidu_storage = {'root_dir': 'baidu\\' + word}
  # baidu_crawler = BaiduImageCrawler(parser_threads=2,
  #                  downloader_threads=4,
  #                  storage=baidu_storage)
  # baidu_crawler.crawl(keyword=word,
  #           max_num=2000)


  # google爬虫
  # google_storage = {'root_dir': '‘google\\' + word}
  # google_crawler = GoogleImageCrawler(parser_threads=4,
  #                  downloader_threads=4,
  #                  storage=google_storage)
  # google_crawler.crawl(keyword=word,
  #           max_num=2000)

这个爬虫库能够实现多线程,多搜索引擎(百度、必应、谷歌)的爬虫,当然谷歌爬虫需要梯子。这里展示的是基于必应的爬虫,百度和谷歌的代码也在下面,只不过被我屏蔽掉了,当然也可以三个同时全开!这样的python爬虫库用起来简直不要太爽。

到此这篇关于Python大批量搜索引擎图像爬虫工具的文章就介绍到这了,更多相关Python搜索引擎图像爬虫内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python client使用http post 到server端的代码
Feb 10 Python
Python实现过滤单个Android程序日志脚本分享
Jan 16 Python
Python中输出ASCII大文字、艺术字、字符字小技巧
Apr 28 Python
使用Python脚本来获取Cisco设备信息的示例
May 04 Python
浅谈python中的实例方法、类方法和静态方法
Feb 17 Python
Python cookbook(字符串与文本)针对任意多的分隔符拆分字符串操作示例
Apr 19 Python
浅谈python多进程共享变量Value的使用tips
Jul 16 Python
详解Python self 参数
Aug 30 Python
使用Matplotlib绘制不同颜色的带箭头的线实例
Apr 17 Python
Python垃圾回收机制三种实现方法
Apr 27 Python
什么是python的必选参数
Jun 21 Python
Python 中如何写注释
Aug 28 Python
详解Python中list[::-1]的几种用法
Nov 16 #Python
使用Pytorch搭建模型的步骤
Nov 16 #Python
Python图像读写方法对比
Nov 16 #Python
python3中编码获取网页的实例方法
Nov 16 #Python
Python3中小括号()、中括号[]、花括号{}的区别详解
Nov 15 #Python
Python根据URL地址下载文件并保存至对应目录的实现
Nov 15 #Python
python re的findall和finditer的区别详解
Nov 15 #Python
You might like
Linux下 php5 MySQL5 Apache2 phpMyAdmin ZendOptimizer安装与配置[图文]
2008/11/18 PHP
php tp验证表单与自动填充函数代码
2012/02/22 PHP
PHP 利用Mail_MimeDecode类提取邮件信息示例
2014/01/26 PHP
理解Javascript_14_函数形式参数与arguments
2010/10/20 Javascript
web前端开发也需要日志
2010/12/09 Javascript
Extjs实现进度条的两种便捷方式
2013/09/26 Javascript
js父页面与子页面不同时显示的方法
2014/10/16 Javascript
JavaScript改变CSS样式的方法汇总
2015/05/07 Javascript
在JavaScript中处理时间之setMinutes()方法的使用
2015/06/11 Javascript
javascript实现的闭包简单实例
2015/07/17 Javascript
怎么通过onclick事件获取js函数返回值(代码少)
2015/07/28 Javascript
JS实现自动变换的菜单效果代码
2015/09/09 Javascript
JS实现一个简单的日历
2017/02/22 Javascript
vue、react等单页面项目应该这样子部署到服务器
2018/01/03 Javascript
优雅的elementUI table单元格可编辑实现方法详解
2018/12/23 Javascript
微信小程序rich-text富文本用法实例分析
2019/05/20 Javascript
JavaScript判断对象和数组的两种方法
2019/05/31 Javascript
vue element-ui el-date-picker限制选择时间为当天之前的代码
2019/11/07 Javascript
简单说明Python中的装饰器的用法
2015/04/24 Python
在Python中使用PIL模块处理图像的教程
2015/04/29 Python
python根据京东商品url获取产品价格
2015/08/09 Python
基于python绘制科赫雪花
2018/06/22 Python
python3.6使用tkinter实现弹跳小球游戏
2019/05/09 Python
Python+selenium点击网页上指定坐标的实例
2019/07/05 Python
对Python _取log的几种方式小结
2019/07/25 Python
Anaconda配置pytorch-gpu虚拟环境的图文教程
2020/04/16 Python
利用PyTorch实现VGG16教程
2020/06/24 Python
python爬虫---requests库的用法详解
2020/09/28 Python
python 匿名函数与三元运算学习笔记
2020/10/23 Python
OpenCV实现机器人对物体进行移动跟随的方法实例
2020/11/09 Python
描述一下JVM加载class文件的原理机制
2013/12/08 面试题
十佳青年个人事迹材料
2014/01/28 职场文书
保密承诺书范文
2014/03/27 职场文书
党支部四风整改方案
2014/10/25 职场文书
资料员岗位职责范本
2015/04/13 职场文书
正则表达式拆分url实例代码
2022/02/24 Java/Android