Python大批量搜索引擎图像爬虫工具详解


Posted in Python onNovember 16, 2020

python图像爬虫包

最近在做一些图像分类的任务时,为了扩充我们的数据集,需要在搜索引擎下爬取额外的图片来扩充我们的训练集。搞人工智能真的是太难了?,居然还要会爬虫。当然网上也有许多python写的爬虫工具,当然,用多了就知道,这些爬虫工具不是不能进行多关键字的爬虫就是用不了,或者是一会就被网站检测到给停止了,最后发现了一款非常好用的python图像爬虫库icrawler,直接就能通过pip进行安装,使用时几行代码就能搞定,简直不要太爽。
话不多说,附上安装命令:

pip install icrawler

下面附上我爬虫的代码:

from icrawler.builtin import BaiduImageCrawler 
from icrawler.builtin import BingImageCrawler 
from icrawler.builtin import GoogleImageCrawler 
#需要爬虫的关键字
list_word = ['抽烟 行人','吸烟 行人','接电话 行人','打电话 行人', '玩手机 行人']
for word in list_word:
  #bing爬虫
  #保存路径
  bing_storage = {'root_dir': 'bing\\'+word}
  #从上到下依次是解析器线程数,下载线程数,还有上面设置的保存路径
  bing_crawler = BingImageCrawler(parser_threads=2,
                  downloader_threads=4,
                  storage=bing_storage)
  #开始爬虫,关键字+图片数量
  bing_crawler.crawl(keyword=word,
            max_num=2000)

  #百度爬虫
  # baidu_storage = {'root_dir': 'baidu\\' + word}
  # baidu_crawler = BaiduImageCrawler(parser_threads=2,
  #                  downloader_threads=4,
  #                  storage=baidu_storage)
  # baidu_crawler.crawl(keyword=word,
  #           max_num=2000)


  # google爬虫
  # google_storage = {'root_dir': '‘google\\' + word}
  # google_crawler = GoogleImageCrawler(parser_threads=4,
  #                  downloader_threads=4,
  #                  storage=google_storage)
  # google_crawler.crawl(keyword=word,
  #           max_num=2000)

这个爬虫库能够实现多线程,多搜索引擎(百度、必应、谷歌)的爬虫,当然谷歌爬虫需要梯子。这里展示的是基于必应的爬虫,百度和谷歌的代码也在下面,只不过被我屏蔽掉了,当然也可以三个同时全开!这样的python爬虫库用起来简直不要太爽。

到此这篇关于Python大批量搜索引擎图像爬虫工具的文章就介绍到这了,更多相关Python搜索引擎图像爬虫内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python中让MySQL查询结果返回字典类型的方法
Aug 22 Python
Python转换HTML到Text纯文本的方法
Jan 15 Python
Python实现遍历windows所有窗口并输出窗口标题的方法
Mar 13 Python
Python实现生成随机数据插入mysql数据库的方法
Dec 25 Python
django rest framework 数据的查找、过滤、排序的示例
Jun 25 Python
python使用百度文字识别功能方法详解
Jul 23 Python
Pandas时间序列重采样(resample)方法中closed、label的作用详解
Dec 10 Python
python利用tkinter实现图片格式转换的示例
Sep 28 Python
python 中关于pycharm选择运行环境的问题
Oct 31 Python
python中turtle库的简单使用教程
Nov 11 Python
使用django自带的user做外键的方法
Nov 30 Python
python+pyhyper实现识别图片中的车牌号思路详解
Dec 24 Python
详解Python中list[::-1]的几种用法
Nov 16 #Python
使用Pytorch搭建模型的步骤
Nov 16 #Python
Python图像读写方法对比
Nov 16 #Python
python3中编码获取网页的实例方法
Nov 16 #Python
Python3中小括号()、中括号[]、花括号{}的区别详解
Nov 15 #Python
Python根据URL地址下载文件并保存至对应目录的实现
Nov 15 #Python
python re的findall和finditer的区别详解
Nov 15 #Python
You might like
php 运算符与表达式详细介绍
2016/11/30 PHP
YII框架实现自定义第三方扩展操作示例
2019/04/26 PHP
ThinkPHP5&5.1框架关联模型分页操作示例
2019/08/03 PHP
用jscript启动sqlserver
2007/06/21 Javascript
JavaScript 继承机制的实现(待续)
2010/05/18 Javascript
推荐17个优美新鲜的jQuery的工具提示插件
2012/09/14 Javascript
javascript操作html控件实例(javascript添加html)
2013/12/02 Javascript
JS操作COOKIE实现备忘记录的方法
2016/04/01 Javascript
JS制作类似选项卡切换的年历
2016/12/03 Javascript
vuejs父子组件通信的问题
2017/01/11 Javascript
jQuery插件之validation插件
2017/03/29 jQuery
validationEngine 表单验证插件使用实例代码
2017/06/15 Javascript
JS一个简单的注册页面实例
2017/09/05 Javascript
小程序实现授权登陆的解决方案
2018/12/02 Javascript
详解bootstrap-fileinput文件上传控件的亲身实践
2019/03/21 Javascript
ionic3双击返回退出应用的方法
2019/09/17 Javascript
PyCharm在win10的64位系统安装实例
2017/11/26 Python
详解用Python处理HTML转义字符的5种方式
2017/12/27 Python
对python中矩阵相加函数sum()的使用详解
2019/01/28 Python
解决在pycharm运行代码,调用CMD窗口的命令运行显示乱码问题
2019/08/23 Python
tensorflow如何批量读取图片
2019/08/29 Python
解决python-docx打包之后找不到default.docx的问题
2020/02/13 Python
浅谈spring boot 集成 log4j 解决与logback冲突的问题
2020/02/20 Python
你需要学会的8个Python列表技巧
2020/06/24 Python
如何使用Python进行PDF图片识别OCR
2021/01/22 Python
EJB包括(SessionBean,EntityBean)说出他们的生命周期,及如何管理事务的
2015/07/24 面试题
装修五一活动策划案
2014/01/23 职场文书
主题婚礼策划方案
2014/02/10 职场文书
反腐倡廉演讲稿
2014/05/22 职场文书
幼儿园感恩节活动方案
2014/10/06 职场文书
云南省召开党的群众路线教育实践活动总结会议新闻稿
2014/10/21 职场文书
大学生村官个人总结
2015/02/15 职场文书
2015年教研组工作总结
2015/05/04 职场文书
Python通过loop.run_in_executor执行同步代码 同步变为异步
2022/04/11 Python
Apache自带的ab压力测试工具的实现
2022/07/23 Servers
python 使用pandas读取csv文件的方法
2022/12/24 Python