Python大批量搜索引擎图像爬虫工具详解


Posted in Python onNovember 16, 2020

python图像爬虫包

最近在做一些图像分类的任务时,为了扩充我们的数据集,需要在搜索引擎下爬取额外的图片来扩充我们的训练集。搞人工智能真的是太难了?,居然还要会爬虫。当然网上也有许多python写的爬虫工具,当然,用多了就知道,这些爬虫工具不是不能进行多关键字的爬虫就是用不了,或者是一会就被网站检测到给停止了,最后发现了一款非常好用的python图像爬虫库icrawler,直接就能通过pip进行安装,使用时几行代码就能搞定,简直不要太爽。
话不多说,附上安装命令:

pip install icrawler

下面附上我爬虫的代码:

from icrawler.builtin import BaiduImageCrawler 
from icrawler.builtin import BingImageCrawler 
from icrawler.builtin import GoogleImageCrawler 
#需要爬虫的关键字
list_word = ['抽烟 行人','吸烟 行人','接电话 行人','打电话 行人', '玩手机 行人']
for word in list_word:
  #bing爬虫
  #保存路径
  bing_storage = {'root_dir': 'bing\\'+word}
  #从上到下依次是解析器线程数,下载线程数,还有上面设置的保存路径
  bing_crawler = BingImageCrawler(parser_threads=2,
                  downloader_threads=4,
                  storage=bing_storage)
  #开始爬虫,关键字+图片数量
  bing_crawler.crawl(keyword=word,
            max_num=2000)

  #百度爬虫
  # baidu_storage = {'root_dir': 'baidu\\' + word}
  # baidu_crawler = BaiduImageCrawler(parser_threads=2,
  #                  downloader_threads=4,
  #                  storage=baidu_storage)
  # baidu_crawler.crawl(keyword=word,
  #           max_num=2000)


  # google爬虫
  # google_storage = {'root_dir': '‘google\\' + word}
  # google_crawler = GoogleImageCrawler(parser_threads=4,
  #                  downloader_threads=4,
  #                  storage=google_storage)
  # google_crawler.crawl(keyword=word,
  #           max_num=2000)

这个爬虫库能够实现多线程,多搜索引擎(百度、必应、谷歌)的爬虫,当然谷歌爬虫需要梯子。这里展示的是基于必应的爬虫,百度和谷歌的代码也在下面,只不过被我屏蔽掉了,当然也可以三个同时全开!这样的python爬虫库用起来简直不要太爽。

到此这篇关于Python大批量搜索引擎图像爬虫工具的文章就介绍到这了,更多相关Python搜索引擎图像爬虫内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python操作MySQL数据库9个实用实例
Dec 11 Python
Python双精度浮点数运算并分行显示操作示例
Jul 21 Python
理论讲解python多进程并发编程
Feb 09 Python
Python中常用的内置方法
Jan 28 Python
如何在Django中添加没有微秒的 DateTimeField 属性详解
Jan 30 Python
django用户登录验证的完整示例代码
Jul 21 Python
Python使用ffmpy将amr格式的音频转化为mp3格式的例子
Aug 08 Python
flask/django 动态查询表结构相同表名不同数据的Model实现方法
Aug 29 Python
Python高级特性之闭包与装饰器实例详解
Nov 19 Python
python多进程重复加载的解决方式
Dec 13 Python
Django用数据库表反向生成models类知识点详解
Mar 25 Python
Django和Ueditor自定义存储上传文件的文件名
Feb 25 Python
详解Python中list[::-1]的几种用法
Nov 16 #Python
使用Pytorch搭建模型的步骤
Nov 16 #Python
Python图像读写方法对比
Nov 16 #Python
python3中编码获取网页的实例方法
Nov 16 #Python
Python3中小括号()、中括号[]、花括号{}的区别详解
Nov 15 #Python
Python根据URL地址下载文件并保存至对应目录的实现
Nov 15 #Python
python re的findall和finditer的区别详解
Nov 15 #Python
You might like
无需重新编译php加入ftp扩展的解决方法
2013/02/07 PHP
PHP strip_tags()去除HTML、XML以及PHP的标签介绍
2014/02/18 PHP
关于laravel 数据库迁移中integer类型是无法指定长度的问题
2019/10/09 PHP
jquery实现动态菜单的实例代码
2013/11/28 Javascript
一个JavaScript函数把URL参数解析成Json对象
2014/09/24 Javascript
JavaScript 中 avalon绑定属性总结
2016/10/19 Javascript
etmvc+jQuery EasyUI+combobox多值操作实现角色授权实例
2016/11/09 Javascript
javascript稀疏数组(sparse array)和密集数组用法分析
2016/12/28 Javascript
input获取焦点时底部菜单被顶上来问题的解决办法
2017/01/24 Javascript
如何理解jQuery中的ajaxSubmit方法
2017/03/13 Javascript
浅谈Node.js轻量级Web框架Express4.x使用指南
2017/05/03 Javascript
浅谈Vuex@2.3.0 中的 state 支持函数申明
2017/11/22 Javascript
关于vue中watch检测到不到对象属性的变化的解决方法
2018/02/08 Javascript
JavaScript防止全局变量污染的方法总结
2018/08/02 Javascript
实例详解带参数的 npm script
2019/05/28 Javascript
node学习笔记之读写文件与开启第一个web服务器操作示例
2019/05/29 Javascript
Vue + Element UI图片上传控件使用详解
2019/08/20 Javascript
Vue 用Vant实现时间选择器的示例代码
2019/10/25 Javascript
JavaScript的一些小技巧分享
2021/01/06 Javascript
python中元类用法实例
2014/10/10 Python
解决Python字典写入文件出行首行有空格的问题
2017/09/27 Python
Python网络编程之使用TCP方式传输文件操作示例
2019/11/01 Python
Python 实现数组相减示例
2019/12/27 Python
Python unittest框架操作实例解析
2020/04/13 Python
Python filter()及reduce()函数使用方法解析
2020/09/05 Python
招聘专员岗位职责
2014/03/07 职场文书
教师爱岗敬业演讲稿
2014/05/05 职场文书
贪污受贿检讨书范文
2014/11/19 职场文书
工程技术负责人岗位职责
2015/04/13 职场文书
复试通知单模板
2015/04/24 职场文书
运动会通讯稿200字
2015/07/20 职场文书
2016年“我们的节日·中秋节”活动总结
2016/04/05 职场文书
同学联谊会邀请函
2019/06/24 职场文书
SQL实现LeetCode(196.删除重复邮箱)
2021/08/07 MySQL
Spring Security使用单点登录的权限功能
2022/04/03 Java/Android
VMware虚拟机安装 Windows Server 2022的详细图文教程
2022/09/23 Servers