Python大批量搜索引擎图像爬虫工具详解


Posted in Python onNovember 16, 2020

python图像爬虫包

最近在做一些图像分类的任务时,为了扩充我们的数据集,需要在搜索引擎下爬取额外的图片来扩充我们的训练集。搞人工智能真的是太难了?,居然还要会爬虫。当然网上也有许多python写的爬虫工具,当然,用多了就知道,这些爬虫工具不是不能进行多关键字的爬虫就是用不了,或者是一会就被网站检测到给停止了,最后发现了一款非常好用的python图像爬虫库icrawler,直接就能通过pip进行安装,使用时几行代码就能搞定,简直不要太爽。
话不多说,附上安装命令:

pip install icrawler

下面附上我爬虫的代码:

from icrawler.builtin import BaiduImageCrawler 
from icrawler.builtin import BingImageCrawler 
from icrawler.builtin import GoogleImageCrawler 
#需要爬虫的关键字
list_word = ['抽烟 行人','吸烟 行人','接电话 行人','打电话 行人', '玩手机 行人']
for word in list_word:
  #bing爬虫
  #保存路径
  bing_storage = {'root_dir': 'bing\\'+word}
  #从上到下依次是解析器线程数,下载线程数,还有上面设置的保存路径
  bing_crawler = BingImageCrawler(parser_threads=2,
                  downloader_threads=4,
                  storage=bing_storage)
  #开始爬虫,关键字+图片数量
  bing_crawler.crawl(keyword=word,
            max_num=2000)

  #百度爬虫
  # baidu_storage = {'root_dir': 'baidu\\' + word}
  # baidu_crawler = BaiduImageCrawler(parser_threads=2,
  #                  downloader_threads=4,
  #                  storage=baidu_storage)
  # baidu_crawler.crawl(keyword=word,
  #           max_num=2000)


  # google爬虫
  # google_storage = {'root_dir': '‘google\\' + word}
  # google_crawler = GoogleImageCrawler(parser_threads=4,
  #                  downloader_threads=4,
  #                  storage=google_storage)
  # google_crawler.crawl(keyword=word,
  #           max_num=2000)

这个爬虫库能够实现多线程,多搜索引擎(百度、必应、谷歌)的爬虫,当然谷歌爬虫需要梯子。这里展示的是基于必应的爬虫,百度和谷歌的代码也在下面,只不过被我屏蔽掉了,当然也可以三个同时全开!这样的python爬虫库用起来简直不要太爽。

到此这篇关于Python大批量搜索引擎图像爬虫工具的文章就介绍到这了,更多相关Python搜索引擎图像爬虫内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python深入学习之内存管理
Aug 31 Python
用实例详解Python中的Django框架中prefetch_related()函数对数据库查询的优化
Apr 01 Python
在Python中使用AOP实现Redis缓存示例
Jul 11 Python
python中ASCII码和字符的转换方法
Jul 09 Python
Flask之flask-script模块使用
Jul 26 Python
详解Python中的各种转义符\n\r\t
Jul 10 Python
python实现画循环圆
Nov 23 Python
基于python实现微信好友数据分析(简单)
Feb 16 Python
信号生成及DFT的python实现方式
Feb 25 Python
Python如何截图保存的三种方法(小结)
Sep 01 Python
Python 整行读取文本方法并去掉readlines换行\n操作
Sep 03 Python
python 实现的截屏工具
May 08 Python
详解Python中list[::-1]的几种用法
Nov 16 #Python
使用Pytorch搭建模型的步骤
Nov 16 #Python
Python图像读写方法对比
Nov 16 #Python
python3中编码获取网页的实例方法
Nov 16 #Python
Python3中小括号()、中括号[]、花括号{}的区别详解
Nov 15 #Python
Python根据URL地址下载文件并保存至对应目录的实现
Nov 15 #Python
python re的findall和finditer的区别详解
Nov 15 #Python
You might like
冰滴咖啡制作步骤
2021/03/03 冲泡冲煮
利用php下载xls文件(自己动手写的)
2014/04/18 PHP
PHP+MySQL插入操作实例
2015/01/21 PHP
thinkPHP数据库增删改查操作方法实例详解
2016/12/06 PHP
[对联广告] JS脚本类
2006/08/27 Javascript
javascript innerHTML、outerHTML、innerText、outerText的区别
2008/11/24 Javascript
jquery.alert 弹出式复选框实现代码
2009/06/15 Javascript
在jQuery 1.5中使用deferred对象的代码(翻译)
2011/03/10 Javascript
Three.js源码阅读笔记(光照部分)
2012/12/27 Javascript
javascript模拟post提交隐藏地址栏的参数
2014/09/03 Javascript
浅谈JavaScript函数的四种存在形态
2016/06/08 Javascript
常用JS图片滚动(无缝、平滑、上下左右滚动)代码大全(推荐)
2016/12/20 Javascript
Vue.js实现表格动态增加删除的方法(附源码下载)
2017/01/20 Javascript
[js高手之路]图解javascript的原型(prototype)对象,原型链实例
2017/08/28 Javascript
原生JS实现瀑布流插件
2018/02/06 Javascript
微信公众平台 客服接口发消息的实现代码(Java接口开发)
2019/04/17 Javascript
深入理解JS异步编程-Promise
2019/06/03 Javascript
js生成1到100的随机数最简单的实现方法
2020/02/07 Javascript
python 获取当天凌晨零点的时间戳方法
2018/05/22 Python
对python判断ip是否可达的实例详解
2019/01/31 Python
Kali Linux安装ipython2 和 ipython3的方法
2019/07/11 Python
Python绘制K线图之可视化神器pyecharts的使用
2021/03/02 Python
分享30个新鲜的CSS3打造的精美绚丽效果(附演示下载)
2012/12/28 HTML / CSS
详解HTML5表单新增属性
2016/12/21 HTML / CSS
美国知名玩具品牌:Melissa & Doug
2016/08/16 全球购物
Linux机考试题
2015/07/17 面试题
硕士研究生求职自荐信范文
2014/03/11 职场文书
租房安全协议书
2014/08/20 职场文书
领导班子作风建设剖析材料
2014/10/11 职场文书
个人批评与自我批评总结
2014/10/17 职场文书
一次性工伤赔偿协议书范本
2014/11/25 职场文书
2015年医药代表工作总结
2015/04/25 职场文书
《为人民服务》教学反思
2016/02/20 职场文书
python Polars库的使用简介
2021/04/21 Python
MySQ InnoDB和MyISAM存储引擎介绍
2022/04/26 MySQL
SQL Server中搜索特定的对象
2022/05/25 SQL Server