Python大批量搜索引擎图像爬虫工具详解


Posted in Python onNovember 16, 2020

python图像爬虫包

最近在做一些图像分类的任务时,为了扩充我们的数据集,需要在搜索引擎下爬取额外的图片来扩充我们的训练集。搞人工智能真的是太难了?,居然还要会爬虫。当然网上也有许多python写的爬虫工具,当然,用多了就知道,这些爬虫工具不是不能进行多关键字的爬虫就是用不了,或者是一会就被网站检测到给停止了,最后发现了一款非常好用的python图像爬虫库icrawler,直接就能通过pip进行安装,使用时几行代码就能搞定,简直不要太爽。
话不多说,附上安装命令:

pip install icrawler

下面附上我爬虫的代码:

from icrawler.builtin import BaiduImageCrawler 
from icrawler.builtin import BingImageCrawler 
from icrawler.builtin import GoogleImageCrawler 
#需要爬虫的关键字
list_word = ['抽烟 行人','吸烟 行人','接电话 行人','打电话 行人', '玩手机 行人']
for word in list_word:
  #bing爬虫
  #保存路径
  bing_storage = {'root_dir': 'bing\\'+word}
  #从上到下依次是解析器线程数,下载线程数,还有上面设置的保存路径
  bing_crawler = BingImageCrawler(parser_threads=2,
                  downloader_threads=4,
                  storage=bing_storage)
  #开始爬虫,关键字+图片数量
  bing_crawler.crawl(keyword=word,
            max_num=2000)

  #百度爬虫
  # baidu_storage = {'root_dir': 'baidu\\' + word}
  # baidu_crawler = BaiduImageCrawler(parser_threads=2,
  #                  downloader_threads=4,
  #                  storage=baidu_storage)
  # baidu_crawler.crawl(keyword=word,
  #           max_num=2000)


  # google爬虫
  # google_storage = {'root_dir': '‘google\\' + word}
  # google_crawler = GoogleImageCrawler(parser_threads=4,
  #                  downloader_threads=4,
  #                  storage=google_storage)
  # google_crawler.crawl(keyword=word,
  #           max_num=2000)

这个爬虫库能够实现多线程,多搜索引擎(百度、必应、谷歌)的爬虫,当然谷歌爬虫需要梯子。这里展示的是基于必应的爬虫,百度和谷歌的代码也在下面,只不过被我屏蔽掉了,当然也可以三个同时全开!这样的python爬虫库用起来简直不要太爽。

到此这篇关于Python大批量搜索引擎图像爬虫工具的文章就介绍到这了,更多相关Python搜索引擎图像爬虫内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python实现根据窗口标题调用窗口的方法
Mar 13 Python
Python计算已经过去多少个周末的方法
Jul 25 Python
深入浅析python中的多进程、多线程、协程
Jun 22 Python
详谈python中冒号与逗号的区别
Apr 18 Python
Python2 Selenium元素定位的实现(8种)
Feb 25 Python
python爬虫之快速对js内容进行破解
Jul 09 Python
django-filter和普通查询的例子
Aug 12 Python
Flask框架实现的前端RSA加密与后端Python解密功能详解
Aug 13 Python
如何利用Python开发一个简单的猜数字游戏
Sep 22 Python
Python3 读取Word文件方式
Feb 13 Python
TensorFlow keras卷积神经网络 添加L2正则化方式
May 22 Python
Python检测端口IP字符串是否合法
Jun 05 Python
详解Python中list[::-1]的几种用法
Nov 16 #Python
使用Pytorch搭建模型的步骤
Nov 16 #Python
Python图像读写方法对比
Nov 16 #Python
python3中编码获取网页的实例方法
Nov 16 #Python
Python3中小括号()、中括号[]、花括号{}的区别详解
Nov 15 #Python
Python根据URL地址下载文件并保存至对应目录的实现
Nov 15 #Python
python re的findall和finditer的区别详解
Nov 15 #Python
You might like
索尼SONY ICF-7600A(W)电路分析
2021/03/01 无线电
IIS+PHP+MySQL+Zend配置 (视频教程)
2006/12/13 PHP
在php和MySql中计算时间差的方法
2011/04/22 PHP
PHP使用数组实现队列
2012/02/05 PHP
WordPres对前端页面调试时的两个PHP函数使用小技巧
2015/12/22 PHP
基于PHP实现等比压缩图片大小
2016/03/04 PHP
PHP实现数组转JSon和JSon转数组的方法示例
2018/06/14 PHP
用javascript编写的第一人称射击游戏
2007/02/25 Javascript
JS获取URL中的参数数据
2013/12/05 Javascript
封装好的js判断操作系统与浏览器代码分享
2015/01/09 Javascript
Bootstrap Metronic完全响应式管理模板之菜单栏学习笔记
2016/07/08 Javascript
JS button按钮实现submit按钮提交效果
2016/11/01 Javascript
Angularjs使用指令做表单校验的方法
2017/03/31 Javascript
vue v-model表单控件绑定详解
2017/05/17 Javascript
element ui 对话框el-dialog关闭事件详解
2018/02/26 Javascript
vue使用rem实现 移动端屏幕适配
2018/09/26 Javascript
浅谈ECMAScript 中的Array类型
2019/06/10 Javascript
vue悬浮可拖拽悬浮按钮的实例代码
2019/08/20 Javascript
Python中List.index()方法的使用教程
2015/05/20 Python
Python随机数random模块使用指南
2016/09/09 Python
Python基于回溯法子集树模板解决m着色问题示例
2017/09/07 Python
Python实现批量压缩图片
2018/01/25 Python
Python实现的连接mssql数据库操作示例
2018/08/17 Python
Django中使用Celery的方法示例
2018/11/29 Python
django跳转页面传参的实现
2020/09/17 Python
python爬虫看看虎牙女主播中谁最“顶”步骤详解
2020/12/01 Python
法国二手MacBook销售网站:Okamac
2019/03/18 全球购物
解释DataSet(ds) 和 ds as DataSet 的含义
2014/07/27 面试题
武汉高蓝德国际.net机试
2016/06/24 面试题
暑期学习心得体会
2014/09/02 职场文书
2014年9.18纪念日演讲稿
2014/09/14 职场文书
安全生产感想
2015/08/07 职场文书
演讲稿:态度决定一切
2019/04/02 职场文书
详解Python魔法方法之描述符类
2021/05/26 Python
matplotlib画混淆矩阵与正确率曲线的实例代码
2021/06/01 Python
MySQL深度分页(千万级数据量如何快速分页)
2021/07/25 MySQL