python爬虫实例之获取动漫截图


Posted in Python onMay 31, 2020

引言

之前有些无聊(呆在家里实在玩的腻了),然后就去B站看了一些python爬虫视频,没有进行基础的理论学习,也就是直接开始实战,感觉跟背公式一样的进行爬虫,也算行吧,至少还能爬一些东西,hhh。我今天来分享一个我的爬虫代码。

正文

话不多说,直接上完整代码

ps:这个代码有些问题 每次我爬到fate的图片它就给我报错,我只好用个try来跳过了,如果有哪位大佬能帮我找出错误并给与纠正,我将不胜感激

import requests as r
import re
import os
import time
file_name = "动漫截图"
if not os.path.exists(file_name):
 os.mkdir(file_name)
    
for p in range(1,34):
  print("--------------------正在爬取第{}页内容------------------".format(p))
  url = 'https://www.acgimage.com/shot/recommend?page={}'.format(p)
  headers = {"user-agent"
   : "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.162 Safari/537.36"}
   
  resp = r.get(url, headers=headers) 
  html = resp.text

  images = re.findall('data-original="(.*?)" ', html)
  names =re.findall('title="(.*?)"', html)
  #print(images)
  #print(names)
  dic = dict(zip(images, names))
  for image in images:
    time.sleep(1)
    print(image, dic[image])
    name = dic[image]
    #name = image.split('/')[-1]
    i = r.get(image, headers=headers).content
    try:
      with open(file_name + '/' + name + '.jpg' , 'wb') as f:
       f.write(i)
    except FileNotFoundError:
     continue

先导入要使用的库

import requests as r
import re
import os
import time

然后去分析要去爬的网址: https://www.acgimage.com/shot/recommend

下图是网址的内容:

python爬虫实例之获取动漫截图

好了 url已经确定

下面去寻找headers

python爬虫实例之获取动漫截图

找到user-agent 将其内容复制到headers中

第一步就完成了

下面是代码展示

url = 'https://www.acgimage.com/shot/recommend?page={}'.format(p)
headers = {"user-agent"
   : "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.162 Safari/537.36"
   }

然后检索要爬的图片内容

python爬虫实例之获取动漫截图

从上图就可以找到图片的位置:data-origina=后面的内容
以及图片的名字:title=后面的内容

然后用正则表达式re来检索就行了

images = re.findall('data-original="(.*?)" ', html)
names =re.findall('title="(.*?)"', html)

最后将其保存就好了

i = r.get(image, headers=headers).content
with open(file_name + '/' + name + '.jpg' , 'wb') as f:
     f.write(i)

还有就是一些细节了

比如换页

第一页网址:

https://www.acgimage.com/shot/recommend

第二页网址:https://www.acgimage.com/shot/recommend?page=2

然后将page后面的数字改动就可以跳到相应的页面

换页的问题也就解决了

or p in range(1,34):
    url = 'https://www.acgimage.com/shot/recommend?page={}'.format(p)

以及将爬到的图片放到自己建立的文件zh

使用了os库

file_name = "动漫截图"
 if not os.path.exists(file_name):
   os.mkdir(file_name)

以及为了不影响爬取的网站 使用了sleep函数

虽然爬取的速度慢了一些

但是这是应遵守的道德

time.sleep(1)

以上 这就是我的爬虫过程

还是希望大佬能解决我的错误之处

万分感谢

总结

到此这篇关于python爬虫实例之获取动漫截图的文章就介绍到这了,更多相关python爬虫获取动漫截图内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
使用pyecharts无法import Bar的解决方案
Apr 23 Python
Python可变参数用法实例分析
Apr 02 Python
python自动化脚本安装指定版本python环境详解
Sep 14 Python
Python实现的多线程同步与互斥锁功能示例
Nov 30 Python
浅谈Python实现2种文件复制的方法
Jan 19 Python
pycharm的console输入实现换行的方法
Jan 16 Python
python实现读取excel文件中所有sheet操作示例
Aug 09 Python
python将三维数组展开成二维数组的实现
Nov 30 Python
python 消除 futureWarning问题的解决
Dec 25 Python
python装饰器实现对异常代码出现进行自动监控的实现方法
Sep 15 Python
Python web框架(django,flask)实现mysql数据库读写分离的示例
Nov 18 Python
Python之qq自动发消息的示例代码
Feb 18 Python
如何利用Python识别图片中的文字
May 31 #Python
Python模拟登入的N种方式(建议收藏)
May 31 #Python
Python多线程正确用法实例解析
May 30 #Python
PyQt5实现简单的计算器
May 30 #Python
PyQt5实现登录页面
May 30 #Python
Python网页解析器使用实例详解
May 30 #Python
PyQt5实现画布小程序
May 30 #Python
You might like
php Http_Template_IT类库进行模板替换
2009/03/19 PHP
PHP图片上传代码
2013/11/04 PHP
php将字符串随机分割成不同长度数组的方法
2015/06/01 PHP
CI框架简单邮件发送类实例
2016/05/18 PHP
thinkphp3.x中display方法及show方法的用法实例
2016/05/19 PHP
PHP实现网页内容html标签补全和过滤的方法小结【2种方法】
2017/04/27 PHP
详解PHP中的 input属性(隐藏 只读 限制)
2017/08/14 PHP
基于PHP实现用户在线状态检测
2020/11/10 PHP
简洁Ajax函数处理(示例代码)
2013/11/15 Javascript
jquery实现点击弹出层效果的简单实例
2014/03/03 Javascript
jquery模拟LCD 时钟的html文件源代码
2014/06/16 Javascript
jQuery实现可用于博客的动态滑动菜单完整实例
2015/09/17 Javascript
JavaScript利用HTML DOM进行文档操作的方法
2016/03/28 Javascript
基于Javascript实现文件实时加载进度的方法
2016/10/12 Javascript
AngularJS中watch监听用法分析
2016/11/04 Javascript
微信小程序开发一键登录 获取session_key和openid实例
2016/11/23 Javascript
layui弹出层效果实现代码
2017/05/19 Javascript
微信小程序dom操作的替代思路实例分析
2018/12/06 Javascript
详解JavaScript原生封装ajax请求和Jquery中的ajax请求
2019/02/14 jQuery
微信小程序对图片进行canvas压缩的方法示例详解
2020/11/12 Javascript
[02:31]DOTA2帕克 英雄基础教程
2013/11/26 DOTA
[54:09]RNG vs Liquid 2019国际邀请赛淘汰赛 败者组 BO3 第一场 8.23
2019/09/05 DOTA
TensorFlow用expand_dim()来增加维度的方法
2018/07/26 Python
如何运行.ipynb文件的图文讲解
2019/06/27 Python
余弦相似性计算及python代码实现过程解析
2019/09/18 Python
Python classmethod装饰器原理及用法解析
2020/10/17 Python
Python 列表推导式需要注意的地方
2020/10/23 Python
希腊香水和化妆品购物网站:Parfimo.gr
2019/10/03 全球购物
Spotahome意大利:公寓和房间出租
2020/02/21 全球购物
自荐信封面
2013/12/04 职场文书
运动会通讯稿300字
2014/02/02 职场文书
小学一年级评语大全
2014/04/22 职场文书
金融与证券专业求职信
2014/06/22 职场文书
市场营销工作计划书
2014/09/15 职场文书
幼儿园开学通知
2015/04/24 职场文书
Redis 操作多个数据库的配置的方法实现
2022/03/23 Redis