python爬虫实例之获取动漫截图


Posted in Python onMay 31, 2020

引言

之前有些无聊(呆在家里实在玩的腻了),然后就去B站看了一些python爬虫视频,没有进行基础的理论学习,也就是直接开始实战,感觉跟背公式一样的进行爬虫,也算行吧,至少还能爬一些东西,hhh。我今天来分享一个我的爬虫代码。

正文

话不多说,直接上完整代码

ps:这个代码有些问题 每次我爬到fate的图片它就给我报错,我只好用个try来跳过了,如果有哪位大佬能帮我找出错误并给与纠正,我将不胜感激

import requests as r
import re
import os
import time
file_name = "动漫截图"
if not os.path.exists(file_name):
 os.mkdir(file_name)
    
for p in range(1,34):
  print("--------------------正在爬取第{}页内容------------------".format(p))
  url = 'https://www.acgimage.com/shot/recommend?page={}'.format(p)
  headers = {"user-agent"
   : "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.162 Safari/537.36"}
   
  resp = r.get(url, headers=headers) 
  html = resp.text

  images = re.findall('data-original="(.*?)" ', html)
  names =re.findall('title="(.*?)"', html)
  #print(images)
  #print(names)
  dic = dict(zip(images, names))
  for image in images:
    time.sleep(1)
    print(image, dic[image])
    name = dic[image]
    #name = image.split('/')[-1]
    i = r.get(image, headers=headers).content
    try:
      with open(file_name + '/' + name + '.jpg' , 'wb') as f:
       f.write(i)
    except FileNotFoundError:
     continue

先导入要使用的库

import requests as r
import re
import os
import time

然后去分析要去爬的网址: https://www.acgimage.com/shot/recommend

下图是网址的内容:

python爬虫实例之获取动漫截图

好了 url已经确定

下面去寻找headers

python爬虫实例之获取动漫截图

找到user-agent 将其内容复制到headers中

第一步就完成了

下面是代码展示

url = 'https://www.acgimage.com/shot/recommend?page={}'.format(p)
headers = {"user-agent"
   : "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.162 Safari/537.36"
   }

然后检索要爬的图片内容

python爬虫实例之获取动漫截图

从上图就可以找到图片的位置:data-origina=后面的内容
以及图片的名字:title=后面的内容

然后用正则表达式re来检索就行了

images = re.findall('data-original="(.*?)" ', html)
names =re.findall('title="(.*?)"', html)

最后将其保存就好了

i = r.get(image, headers=headers).content
with open(file_name + '/' + name + '.jpg' , 'wb') as f:
     f.write(i)

还有就是一些细节了

比如换页

第一页网址:

https://www.acgimage.com/shot/recommend

第二页网址:https://www.acgimage.com/shot/recommend?page=2

然后将page后面的数字改动就可以跳到相应的页面

换页的问题也就解决了

or p in range(1,34):
    url = 'https://www.acgimage.com/shot/recommend?page={}'.format(p)

以及将爬到的图片放到自己建立的文件zh

使用了os库

file_name = "动漫截图"
 if not os.path.exists(file_name):
   os.mkdir(file_name)

以及为了不影响爬取的网站 使用了sleep函数

虽然爬取的速度慢了一些

但是这是应遵守的道德

time.sleep(1)

以上 这就是我的爬虫过程

还是希望大佬能解决我的错误之处

万分感谢

总结

到此这篇关于python爬虫实例之获取动漫截图的文章就介绍到这了,更多相关python爬虫获取动漫截图内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
跟老齐学Python之编写类之二方法
Oct 11 Python
python中readline判断文件读取结束的方法
Nov 08 Python
Python使用scrapy采集数据过程中放回下载过大页面的方法
Apr 08 Python
给Python中的MySQLdb模块添加超时功能的教程
May 05 Python
使用Python脚本和ADB命令实现卸载App
Feb 10 Python
python机器学习之神经网络(二)
Dec 20 Python
利用python为运维人员写一个监控脚本
Mar 25 Python
python判断自身是否正在运行的方法
Aug 08 Python
django实现模板中的字符串文字和自动转义
Mar 31 Python
django rest framework使用django-filter用法
Jul 15 Python
python 如何快速复制序列
Sep 07 Python
Python中pass的作用与使用教程
Nov 13 Python
如何利用Python识别图片中的文字
May 31 #Python
Python模拟登入的N种方式(建议收藏)
May 31 #Python
Python多线程正确用法实例解析
May 30 #Python
PyQt5实现简单的计算器
May 30 #Python
PyQt5实现登录页面
May 30 #Python
Python网页解析器使用实例详解
May 30 #Python
PyQt5实现画布小程序
May 30 #Python
You might like
php设计模式  Command(命令模式)
2011/06/17 PHP
Laravel中日期时间处理包Carbon的简单使用
2017/09/21 PHP
PHP的图像处理实例小结【文字水印、图片水印、压缩图像等】
2019/12/20 PHP
动态刷新 dorado树的js代码
2009/06/12 Javascript
js 判断一个元素是否在页面中存在
2012/12/27 Javascript
计算新浪Weibo消息长度(还可以输入119字)
2013/07/02 Javascript
js、css、img等浏览器缓存问题的2种解决方案
2013/10/23 Javascript
AngularJS的内置过滤器详解
2015/05/14 Javascript
Javascript之Date对象详解
2016/06/07 Javascript
详解js的六大数据类型
2016/12/27 Javascript
node.js+jQuery实现用户登录注册AJAX交互
2017/04/28 jQuery
使用vuex的state状态对象的5种方式
2018/04/19 Javascript
微信小程序调用摄像头隐藏式拍照功能
2018/08/22 Javascript
vue文件运行的方法教学
2019/02/12 Javascript
[46:16]2018DOTA2亚洲邀请赛3月30日 小组赛B组 iG VS VP
2018/03/31 DOTA
Python3字符串学习教程
2015/08/20 Python
最大K个数问题的Python版解法总结
2016/06/16 Python
Python中的FTP通信模块ftplib的用法整理
2016/07/08 Python
Python中的连接符(+、+=)示例详解
2017/01/13 Python
在Python程序员面试中被问的最多的10道题
2017/12/05 Python
Python中fnmatch模块的使用详情
2018/11/30 Python
Python设计模式之观察者模式原理与用法详解
2019/01/16 Python
Django 内置权限扩展案例详解
2019/03/04 Python
详解python中TCP协议中的粘包问题
2019/03/22 Python
详解Python数据可视化编程 - 词云生成并保存(jieba+WordCloud)
2019/03/26 Python
Python玩转加密的技巧【推荐】
2019/05/13 Python
利用css3制作3D样式按钮实现代码
2013/03/18 HTML / CSS
德国柯吉澳趣味家居:Koziol
2017/08/24 全球购物
化学相关工作求职信
2013/10/02 职场文书
畜牧兽医本科生个人的自我评价
2013/10/11 职场文书
银行求职自荐书
2014/06/25 职场文书
质检员工作总结2015
2015/04/25 职场文书
2015年保洁工作总结范文
2015/04/28 职场文书
公安忠诚教育心得体会
2016/01/23 职场文书
2016北大自主招生自荐信模板
2016/01/28 职场文书
Z-Order加速Hudi大规模数据集方案分析
2022/03/31 Servers