Python大批量搜索引擎图像爬虫工具详解


Posted in Python onNovember 16, 2020

python图像爬虫包

最近在做一些图像分类的任务时,为了扩充我们的数据集,需要在搜索引擎下爬取额外的图片来扩充我们的训练集。搞人工智能真的是太难了?,居然还要会爬虫。当然网上也有许多python写的爬虫工具,当然,用多了就知道,这些爬虫工具不是不能进行多关键字的爬虫就是用不了,或者是一会就被网站检测到给停止了,最后发现了一款非常好用的python图像爬虫库icrawler,直接就能通过pip进行安装,使用时几行代码就能搞定,简直不要太爽。
话不多说,附上安装命令:

pip install icrawler

下面附上我爬虫的代码:

from icrawler.builtin import BaiduImageCrawler 
from icrawler.builtin import BingImageCrawler 
from icrawler.builtin import GoogleImageCrawler 
#需要爬虫的关键字
list_word = ['抽烟 行人','吸烟 行人','接电话 行人','打电话 行人', '玩手机 行人']
for word in list_word:
  #bing爬虫
  #保存路径
  bing_storage = {'root_dir': 'bing\\'+word}
  #从上到下依次是解析器线程数,下载线程数,还有上面设置的保存路径
  bing_crawler = BingImageCrawler(parser_threads=2,
                  downloader_threads=4,
                  storage=bing_storage)
  #开始爬虫,关键字+图片数量
  bing_crawler.crawl(keyword=word,
            max_num=2000)

  #百度爬虫
  # baidu_storage = {'root_dir': 'baidu\\' + word}
  # baidu_crawler = BaiduImageCrawler(parser_threads=2,
  #                  downloader_threads=4,
  #                  storage=baidu_storage)
  # baidu_crawler.crawl(keyword=word,
  #           max_num=2000)


  # google爬虫
  # google_storage = {'root_dir': '‘google\\' + word}
  # google_crawler = GoogleImageCrawler(parser_threads=4,
  #                  downloader_threads=4,
  #                  storage=google_storage)
  # google_crawler.crawl(keyword=word,
  #           max_num=2000)

这个爬虫库能够实现多线程,多搜索引擎(百度、必应、谷歌)的爬虫,当然谷歌爬虫需要梯子。这里展示的是基于必应的爬虫,百度和谷歌的代码也在下面,只不过被我屏蔽掉了,当然也可以三个同时全开!这样的python爬虫库用起来简直不要太爽。

到此这篇关于Python大批量搜索引擎图像爬虫工具的文章就介绍到这了,更多相关Python搜索引擎图像爬虫内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
跟老齐学Python之变量和参数
Oct 10 Python
python中MySQLdb模块用法实例
Nov 10 Python
python冒泡排序简单实现方法
Jul 09 Python
Windows上使用virtualenv搭建Python+Flask开发环境
Jun 07 Python
python win32 简单操作方法
May 25 Python
python画双y轴图像的示例代码
Jul 07 Python
python 爬取学信网登录页面的例子
Aug 13 Python
Python3 合并二叉树的实现
Sep 30 Python
Pytorch中实现只导入部分模型参数的方式
Jan 02 Python
python json.dumps中文乱码问题解决
Apr 01 Python
Django后端分离 使用element-ui文件上传方式
Jul 12 Python
使用tensorflow进行音乐类型的分类
Aug 14 Python
详解Python中list[::-1]的几种用法
Nov 16 #Python
使用Pytorch搭建模型的步骤
Nov 16 #Python
Python图像读写方法对比
Nov 16 #Python
python3中编码获取网页的实例方法
Nov 16 #Python
Python3中小括号()、中括号[]、花括号{}的区别详解
Nov 15 #Python
Python根据URL地址下载文件并保存至对应目录的实现
Nov 15 #Python
python re的findall和finditer的区别详解
Nov 15 #Python
You might like
PHP排序二叉树基本功能实现方法示例
2018/05/26 PHP
javascript实现TreeView 无刷新展开的实例代码
2013/07/13 Javascript
分享33个jQuery与CSS3实现的绚丽鼠标悬停效果
2014/12/15 Javascript
jQuery实现拖动调整表格单元格大小的代码实例
2015/01/13 Javascript
javascript验证身份证号
2015/03/03 Javascript
jQuery操作表单常用控件方法小结
2015/03/23 Javascript
使用ngView配合AngularJS应用实现动画效果的方法
2015/06/19 Javascript
JavaScript记录光标在编辑器中位置的实现方法
2016/04/22 Javascript
jQuery前端开发35个小技巧
2016/05/24 Javascript
jQuery插件WebUploader实现文件上传
2016/11/07 Javascript
jQuery ajax请求struts action实现异步刷新
2017/04/19 jQuery
jQuery序列化后的表单值转换成Json
2017/06/16 jQuery
vue项目实战总结篇
2018/02/11 Javascript
vue中el-upload上传图片到七牛的示例代码
2018/10/19 Javascript
JS实现倒计时图文效果
2018/11/17 Javascript
python使用range函数计算一组数和的方法
2015/05/07 Python
Python实现对文件进行单词划分并去重排序操作示例
2018/07/10 Python
python numpy数组的索引和切片的操作方法
2018/10/20 Python
python3+PyQt5 自定义窗口部件--使用窗口部件样式表的方法
2019/06/26 Python
Python学习笔记之文件的读写操作实例分析
2019/08/07 Python
python实现图像检索的三种(直方图/OpenCV/哈希法)
2019/08/08 Python
Python queue队列原理与应用案例分析
2019/09/27 Python
python实现的汉诺塔算法示例
2019/10/23 Python
Matplotlib使用字符串代替变量绘制散点图的方法
2020/02/17 Python
如何使用pandas读取txt文件中指定的列(有无标题)
2020/03/05 Python
HTML5的结构和语义(2):结构
2008/10/17 HTML / CSS
DHC美国官网:日本通信销售第一的化妆品品牌
2017/11/12 全球购物
POP文化和音乐灵感的时尚:Hot Topic
2019/06/19 全球购物
Java的类可以定义为Protected或者Private得吗
2015/09/25 面试题
农村婚礼证婚词
2014/01/08 职场文书
励志广播稿300字(5篇)
2014/09/15 职场文书
基层党员四风问题自我剖析材料
2014/09/29 职场文书
成都人事代理协议书
2014/10/25 职场文书
抗洪救灾感谢信
2015/01/22 职场文书
监护人证明
2015/06/19 职场文书
深入详解JS函数的柯里化
2021/06/09 Javascript