python爬虫实例之获取动漫截图


Posted in Python onMay 31, 2020

引言

之前有些无聊(呆在家里实在玩的腻了),然后就去B站看了一些python爬虫视频,没有进行基础的理论学习,也就是直接开始实战,感觉跟背公式一样的进行爬虫,也算行吧,至少还能爬一些东西,hhh。我今天来分享一个我的爬虫代码。

正文

话不多说,直接上完整代码

ps:这个代码有些问题 每次我爬到fate的图片它就给我报错,我只好用个try来跳过了,如果有哪位大佬能帮我找出错误并给与纠正,我将不胜感激

import requests as r
import re
import os
import time
file_name = "动漫截图"
if not os.path.exists(file_name):
 os.mkdir(file_name)
    
for p in range(1,34):
  print("--------------------正在爬取第{}页内容------------------".format(p))
  url = 'https://www.acgimage.com/shot/recommend?page={}'.format(p)
  headers = {"user-agent"
   : "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.162 Safari/537.36"}
   
  resp = r.get(url, headers=headers) 
  html = resp.text

  images = re.findall('data-original="(.*?)" ', html)
  names =re.findall('title="(.*?)"', html)
  #print(images)
  #print(names)
  dic = dict(zip(images, names))
  for image in images:
    time.sleep(1)
    print(image, dic[image])
    name = dic[image]
    #name = image.split('/')[-1]
    i = r.get(image, headers=headers).content
    try:
      with open(file_name + '/' + name + '.jpg' , 'wb') as f:
       f.write(i)
    except FileNotFoundError:
     continue

先导入要使用的库

import requests as r
import re
import os
import time

然后去分析要去爬的网址: https://www.acgimage.com/shot/recommend

下图是网址的内容:

python爬虫实例之获取动漫截图

好了 url已经确定

下面去寻找headers

python爬虫实例之获取动漫截图

找到user-agent 将其内容复制到headers中

第一步就完成了

下面是代码展示

url = 'https://www.acgimage.com/shot/recommend?page={}'.format(p)
headers = {"user-agent"
   : "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.162 Safari/537.36"
   }

然后检索要爬的图片内容

python爬虫实例之获取动漫截图

从上图就可以找到图片的位置:data-origina=后面的内容
以及图片的名字:title=后面的内容

然后用正则表达式re来检索就行了

images = re.findall('data-original="(.*?)" ', html)
names =re.findall('title="(.*?)"', html)

最后将其保存就好了

i = r.get(image, headers=headers).content
with open(file_name + '/' + name + '.jpg' , 'wb') as f:
     f.write(i)

还有就是一些细节了

比如换页

第一页网址:

https://www.acgimage.com/shot/recommend

第二页网址:https://www.acgimage.com/shot/recommend?page=2

然后将page后面的数字改动就可以跳到相应的页面

换页的问题也就解决了

or p in range(1,34):
    url = 'https://www.acgimage.com/shot/recommend?page={}'.format(p)

以及将爬到的图片放到自己建立的文件zh

使用了os库

file_name = "动漫截图"
 if not os.path.exists(file_name):
   os.mkdir(file_name)

以及为了不影响爬取的网站 使用了sleep函数

虽然爬取的速度慢了一些

但是这是应遵守的道德

time.sleep(1)

以上 这就是我的爬虫过程

还是希望大佬能解决我的错误之处

万分感谢

总结

到此这篇关于python爬虫实例之获取动漫截图的文章就介绍到这了,更多相关python爬虫获取动漫截图内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python使用sftp实现上传和下载功能(实例代码)
Mar 14 Python
python3学习笔记之多进程分布式小例子
Feb 13 Python
python五子棋游戏的设计与实现
Jun 18 Python
在Qt中正确的设置窗体的背景图片的几种方法总结
Jun 19 Python
python可视化篇之流式数据监控的实现
Aug 07 Python
pyinstaller打包opencv和numpy程序运行错误解决
Aug 16 Python
利用Tensorflow的队列多线程读取数据方式
Feb 05 Python
基于Python的身份证验证识别和数据处理详解
Nov 14 Python
详解pandas映射与数据转换
Jan 22 Python
python中pyqtgraph知识点总结
Jan 26 Python
python中Array和DataFrame相互转换的实例讲解
Feb 03 Python
Python异常类型以及处理方法汇总
Jun 05 Python
如何利用Python识别图片中的文字
May 31 #Python
Python模拟登入的N种方式(建议收藏)
May 31 #Python
Python多线程正确用法实例解析
May 30 #Python
PyQt5实现简单的计算器
May 30 #Python
PyQt5实现登录页面
May 30 #Python
Python网页解析器使用实例详解
May 30 #Python
PyQt5实现画布小程序
May 30 #Python
You might like
关于使用key/value数据库redis和TTSERVER的心得体会
2013/06/28 PHP
memcache命令启动参数中文解释
2014/01/13 PHP
php通过curl添加cookie伪造登陆抓取数据的方法
2016/04/02 PHP
PHP设计模式之单例模式原理与实现方法分析
2018/04/25 PHP
PHP7 mongoDB扩展使用的方法分享
2019/05/02 PHP
再次更新!MSClass (Class Of Marquee Scroll通用不间断滚动JS封装类 Ver 1.6)
2007/02/05 Javascript
jquery命令汇总,方便使用jquery的朋友
2012/06/26 Javascript
jQuery子属性过滤选择器用法分析
2015/02/10 Javascript
js实现获取两个日期之间所有日期的方法
2016/06/17 Javascript
jQuery简单动画变换效果实例分析
2016/07/04 Javascript
JavaScript页面实时显示当前时间实例代码
2016/10/23 Javascript
详解基于Angular4+ server render(服务端渲染)开发教程
2017/08/28 Javascript
通过fastclick源码分析彻底解决tap“点透”
2017/12/24 Javascript
浅谈webpack4.x 入门(一篇足矣)
2018/09/05 Javascript
socket io与vue-cli的结合使用的示例代码
2018/11/01 Javascript
Layui 动态禁止select下拉的例子
2019/09/03 Javascript
使用 js 简单的实现 bind、call 、aplly代码实例
2019/09/07 Javascript
为nuxt项目写一个面包屑cli工具实现自动生成页面与面包屑配置
2019/09/29 Javascript
[00:30]塑造者的传承礼包-戴泽“暗影之焰”套装展示视频
2014/04/04 DOTA
gearman的安装启动及python API使用实例
2014/07/08 Python
python实现爬虫统计学校BBS男女比例之数据处理(三)
2015/12/31 Python
python使用正则表达式的search()函数实现指定位置搜索功能
2017/11/10 Python
Django入门使用示例
2017/12/12 Python
对Python3中的input函数详解
2018/04/22 Python
Python数据结构与算法(几种排序)小结
2019/06/22 Python
微信浏览器左上角返回按钮拦截功能
2017/11/21 HTML / CSS
手机端用rem+scss做适配的详解
2017/11/15 HTML / CSS
BAILEY 44官网:美国制造的女性服装
2019/07/01 全球购物
.NET面试题:什么是值类型和引用类型
2016/01/12 面试题
精彩的推荐信范文
2013/11/26 职场文书
工商局领导班子存在的问题整改措施思想汇报
2014/10/05 职场文书
小学优秀教师材料
2014/12/15 职场文书
明星邀请函
2015/02/02 职场文书
学期个人工作总结
2015/02/13 职场文书
Python爬虫基础初探selenium
2021/05/31 Python
vue Element-ui表格实现树形结构表格
2021/06/07 Vue.js