Python大批量搜索引擎图像爬虫工具详解


Posted in Python onNovember 16, 2020

python图像爬虫包

最近在做一些图像分类的任务时,为了扩充我们的数据集,需要在搜索引擎下爬取额外的图片来扩充我们的训练集。搞人工智能真的是太难了?,居然还要会爬虫。当然网上也有许多python写的爬虫工具,当然,用多了就知道,这些爬虫工具不是不能进行多关键字的爬虫就是用不了,或者是一会就被网站检测到给停止了,最后发现了一款非常好用的python图像爬虫库icrawler,直接就能通过pip进行安装,使用时几行代码就能搞定,简直不要太爽。
话不多说,附上安装命令:

pip install icrawler

下面附上我爬虫的代码:

from icrawler.builtin import BaiduImageCrawler 
from icrawler.builtin import BingImageCrawler 
from icrawler.builtin import GoogleImageCrawler 
#需要爬虫的关键字
list_word = ['抽烟 行人','吸烟 行人','接电话 行人','打电话 行人', '玩手机 行人']
for word in list_word:
  #bing爬虫
  #保存路径
  bing_storage = {'root_dir': 'bing\\'+word}
  #从上到下依次是解析器线程数,下载线程数,还有上面设置的保存路径
  bing_crawler = BingImageCrawler(parser_threads=2,
                  downloader_threads=4,
                  storage=bing_storage)
  #开始爬虫,关键字+图片数量
  bing_crawler.crawl(keyword=word,
            max_num=2000)

  #百度爬虫
  # baidu_storage = {'root_dir': 'baidu\\' + word}
  # baidu_crawler = BaiduImageCrawler(parser_threads=2,
  #                  downloader_threads=4,
  #                  storage=baidu_storage)
  # baidu_crawler.crawl(keyword=word,
  #           max_num=2000)


  # google爬虫
  # google_storage = {'root_dir': '‘google\\' + word}
  # google_crawler = GoogleImageCrawler(parser_threads=4,
  #                  downloader_threads=4,
  #                  storage=google_storage)
  # google_crawler.crawl(keyword=word,
  #           max_num=2000)

这个爬虫库能够实现多线程,多搜索引擎(百度、必应、谷歌)的爬虫,当然谷歌爬虫需要梯子。这里展示的是基于必应的爬虫,百度和谷歌的代码也在下面,只不过被我屏蔽掉了,当然也可以三个同时全开!这样的python爬虫库用起来简直不要太爽。

到此这篇关于Python大批量搜索引擎图像爬虫工具的文章就介绍到这了,更多相关Python搜索引擎图像爬虫内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python计算最大优先级队列实例
Dec 18 Python
Python多线程编程(三):threading.Thread类的重要函数和方法
Apr 05 Python
Python实现针对给定字符串寻找最长非重复子串的方法
Apr 21 Python
Python利用Django如何写restful api接口详解
Jun 08 Python
Flask实现图片的上传、下载及展示示例代码
Aug 03 Python
python 接收处理外带的参数方法
Dec 03 Python
利用Python+阿里云实现DDNS动态域名解析的方法
Apr 01 Python
django项目环境搭建及在虚拟机本地创建django项目的教程
Aug 02 Python
Python3视频转字符动画的实例代码
Aug 29 Python
简单了解Pandas缺失值处理方法
Nov 16 Python
使用Python3 poplib模块删除服务器多天前的邮件实现代码
Apr 24 Python
基于python制作简易版学生信息管理系统
Apr 20 Python
详解Python中list[::-1]的几种用法
Nov 16 #Python
使用Pytorch搭建模型的步骤
Nov 16 #Python
Python图像读写方法对比
Nov 16 #Python
python3中编码获取网页的实例方法
Nov 16 #Python
Python3中小括号()、中括号[]、花括号{}的区别详解
Nov 15 #Python
Python根据URL地址下载文件并保存至对应目录的实现
Nov 15 #Python
python re的findall和finditer的区别详解
Nov 15 #Python
You might like
社区(php&&mysql)四
2006/10/09 PHP
PHP 第一节 php简介
2012/04/28 PHP
探讨:如何编写PHP扩展
2013/06/13 PHP
php判断手机浏览还是web浏览,并执行相应的动作简单实例
2016/07/28 PHP
php 字符串中是否包含指定字符串的多种方法
2018/04/12 PHP
PHPUnit测试私有属性和方法功能示例
2018/06/12 PHP
javascript入门·动态的时钟,显示完整的一些方法,新年倒计时
2007/10/01 Javascript
jquery 实现返回顶部功能
2014/11/17 Javascript
innerHTML在IE中报错解决方案
2014/12/15 Javascript
jQuery中 attr() 方法使用小结
2015/05/03 Javascript
JS获取数组最大值、最小值及长度的方法
2015/11/24 Javascript
Jquery左右滑动插件之实现超级炫酷动画效果附源码下载
2015/12/02 Javascript
javascript关于继承解析
2016/05/10 Javascript
NodeJS连接MongoDB数据库时报错的快速解决方法
2016/05/13 NodeJs
BootStrap智能表单demo示例详解
2016/06/13 Javascript
再谈javascript注入 黑客必备!
2016/09/14 Javascript
纯js实现动态时间显示
2020/09/07 Javascript
input type=file 选择图片并且实现预览效果的实例
2017/10/26 Javascript
判断jQuery是否加载完成,没完成继续判断的解决方法
2017/12/06 jQuery
基于 vue-skeleton-webpack-plugin 的骨架屏实战
2019/08/05 Javascript
Python的Bottle框架中实现最基本的get和post的方法的教程
2015/04/30 Python
python数据类型判断type与isinstance的区别实例解析
2017/10/31 Python
python web基础之加载静态文件实例
2018/03/20 Python
python opencv实现运动检测
2018/07/10 Python
python实现用类读取文件数据并计算矩形面积
2020/01/18 Python
pytorch判断是否cuda 判断变量类型方式
2020/06/23 Python
Python工程师必考的6个经典面试题
2020/06/28 Python
收集的22款给力的HTML5和CSS3帮助工具
2012/09/14 HTML / CSS
HTML5触摸事件实现移动端简易进度条的实现方法
2018/05/04 HTML / CSS
土建资料员岗位职责
2014/01/04 职场文书
优秀党员学习焦裕禄精神思想汇报范文
2014/09/10 职场文书
2014年党员发展工作总结
2014/12/02 职场文书
2015年妇幼卫生工作总结
2015/05/23 职场文书
JavaScript如何利用Promise控制并发请求个数
2021/05/14 Javascript
Python实现简繁体转换
2021/06/07 Python
mysql数据库如何转移到oracle
2022/12/24 MySQL