编程 Python

python爬虫实例之获取动漫截图

Posted in Python onMay 31, 2020

引言

之前有些无聊（呆在家里实在玩的腻了），然后就去B站看了一些python爬虫视频，没有进行基础的理论学习，也就是直接开始实战，感觉跟背公式一样的进行爬虫，也算行吧，至少还能爬一些东西，hhh。我今天来分享一个我的爬虫代码。

正文

话不多说，直接上完整代码

ps：这个代码有些问题每次我爬到fate的图片它就给我报错，我只好用个try来跳过了，如果有哪位大佬能帮我找出错误并给与纠正，我将不胜感激

import requests as r
import re
import os
import time
file_name = "动漫截图"
if not os.path.exists(file_name):
 os.mkdir(file_name)
    
for p in range(1,34):
  print("--------------------正在爬取第{}页内容------------------".format(p))
  url = 'https://www.acgimage.com/shot/recommend?page={}'.format(p)
  headers = {"user-agent"
   : "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.162 Safari/537.36"}
   
  resp = r.get(url, headers=headers) 
  html = resp.text

  images = re.findall('data-original="(.*?)" ', html)
  names =re.findall('title="(.*?)"', html)
  #print(images)
  #print(names)
  dic = dict(zip(images, names))
  for image in images:
    time.sleep(1)
    print(image, dic[image])
    name = dic[image]
    #name = image.split('/')[-1]
    i = r.get(image, headers=headers).content
    try:
      with open(file_name + '/' + name + '.jpg' , 'wb') as f:
       f.write(i)
    except FileNotFoundError:
     continue

先导入要使用的库

import requests as r
import re
import os
import time

然后去分析要去爬的网址： https://www.acgimage.com/shot/recommend

下图是网址的内容：

python爬虫实例之获取动漫截图

好了 url已经确定

下面去寻找headers

python爬虫实例之获取动漫截图

找到user-agent 将其内容复制到headers中

第一步就完成了

下面是代码展示

url = 'https://www.acgimage.com/shot/recommend?page={}'.format(p)
headers = {"user-agent"
   : "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.162 Safari/537.36"
   }

然后检索要爬的图片内容

python爬虫实例之获取动漫截图

从上图就可以找到图片的位置：data-origina=后面的内容
以及图片的名字：title=后面的内容

然后用正则表达式re来检索就行了

images = re.findall('data-original="(.*?)" ', html)
names =re.findall('title="(.*?)"', html)

最后将其保存就好了

i = r.get(image, headers=headers).content
with open(file_name + '/' + name + '.jpg' , 'wb') as f:
     f.write(i)

还有就是一些细节了

比如换页

第一页网址：

https://www.acgimage.com/shot/recommend

第二页网址：https://www.acgimage.com/shot/recommend?page=2

然后将page后面的数字改动就可以跳到相应的页面

换页的问题也就解决了

or p in range(1,34):
    url = 'https://www.acgimage.com/shot/recommend?page={}'.format(p)

以及将爬到的图片放到自己建立的文件zh

使用了os库

file_name = "动漫截图"
 if not os.path.exists(file_name):
   os.mkdir(file_name)

以及为了不影响爬取的网站使用了sleep函数

虽然爬取的速度慢了一些

但是这是应遵守的道德

time.sleep(1)

以上这就是我的爬虫过程

还是希望大佬能解决我的错误之处

万分感谢

总结

到此这篇关于python爬虫实例之获取动漫截图的文章就介绍到这了,更多相关python爬虫获取动漫截图内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

python爬虫实例之获取动漫截图

- Author -

四月一日君寻

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python判断变量是否已经定义的方法

Aug 18 Python

python文件写入实例分析

Apr 08 Python

深入解析Python中的descriptor描述器的作用及用法

Jun 27 Python

Python爬取APP下载链接的实现方法

Sep 30 Python

Python 3中print函数的使用方法总结

Aug 08 Python

django用户注册、登录、注销和用户扩展的示例

Mar 19 Python

使用Python获取网段IP个数以及地址清单的方法

Nov 01 Python

django与小程序实现登录验证功能的示例代码

Feb 19 Python

使用Python为中秋节绘制一块美味的月饼

Sep 11 Python

Python sorted排序方法如何实现

Mar 31 Python

如何在python中实现线性回归

Aug 10 Python

python 算法题——快乐数的多种解法

May 27 Python

如何利用Python识别图片中的文字

May 31 #Python

Python模拟登入的N种方式(建议收藏)

May 31 #Python

Python多线程正确用法实例解析

May 30 #Python

PyQt5实现简单的计算器

May 30 #Python

PyQt5实现登录页面

May 30 #Python

Python网页解析器使用实例详解

May 30 #Python

PyQt5实现画布小程序

May 30 #Python

You might like

php的正则处理函数总结分析

2008/06/20 PHP

php设计模式 Facade(外观模式)

2011/06/26 PHP

Linux下php5.4启动脚本

2014/08/03 PHP

php中mail函数发送邮件失败的解决方法

2014/12/24 PHP

php htmlentities()函数的定义和用法

2016/05/13 PHP

thinkphp在php7环境下提示Cannot use ‘String’ as class name as it is reserved的解决方法

2016/09/30 PHP

限制复选框的最大可选数

2006/07/01 Javascript

Jquery 过滤器(first,last,not,even,odd)的使用

2014/01/22 Javascript

三种Node.js写文件的方式

2016/03/08 Javascript

简单实现IONIC购物车功能

2017/01/10 Javascript

vue.js指令v-model使用方法

2017/03/20 Javascript

JavaScript数组去重的多种方法(四种)

2017/09/19 Javascript

Vue实现侧边菜单栏手风琴效果实例代码

2018/05/31 Javascript

详解Vue取消eslint语法限制

2018/08/04 Javascript

react 不用插件实现数字滚动的效果示例

2020/04/14 Javascript

python调用cmd命令行制作刷博器

2014/01/13 Python

python基于mysql实现的简单队列以及跨进程锁实例详解

2014/07/07 Python

跟老齐学Python之一个免费的实验室

2014/09/14 Python

Python列表计数及插入实例

2014/12/17 Python

用Python中的wxPython实现最基本的浏览器功能

2015/04/14 Python

在Python的Django框架中用流响应生成CSV文件的教程

2015/05/02 Python

python安装模块如何通过setup.py安装(超简单)

2018/05/05 Python

Python实现批量执行同目录下的py文件方法

2019/01/11 Python

django框架使用orm实现批量更新数据的方法

2019/06/21 Python

详解numpy矩阵的创建与数据类型

2019/10/18 Python

python pptx复制指定页的ppt教程

2020/02/14 Python

Pandas —— resample()重采样和asfreq()频度转换方式

2020/02/26 Python

英国家用电器购物网站：Hughes

2018/02/23 全球购物

母婴店促销方案

2014/03/05 职场文书

法律六进活动方案

2014/03/13 职场文书

高三家长寄语

2014/04/03 职场文书

大学生暑期社会实践证明范本

2014/10/24 职场文书

2015年外联部工作总结

2015/04/03 职场文书

酒店人事主管岗位职责

2015/04/11 职场文书

小学体育队列队形教学反思

2016/02/16 职场文书

标准版个人借条怎么写？以及什么是借条？

2019/08/28 职场文书