python爬虫实例之获取动漫截图


Posted in Python onMay 31, 2020

引言

之前有些无聊(呆在家里实在玩的腻了),然后就去B站看了一些python爬虫视频,没有进行基础的理论学习,也就是直接开始实战,感觉跟背公式一样的进行爬虫,也算行吧,至少还能爬一些东西,hhh。我今天来分享一个我的爬虫代码。

正文

话不多说,直接上完整代码

ps:这个代码有些问题 每次我爬到fate的图片它就给我报错,我只好用个try来跳过了,如果有哪位大佬能帮我找出错误并给与纠正,我将不胜感激

import requests as r
import re
import os
import time
file_name = "动漫截图"
if not os.path.exists(file_name):
 os.mkdir(file_name)
    
for p in range(1,34):
  print("--------------------正在爬取第{}页内容------------------".format(p))
  url = 'https://www.acgimage.com/shot/recommend?page={}'.format(p)
  headers = {"user-agent"
   : "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.162 Safari/537.36"}
   
  resp = r.get(url, headers=headers) 
  html = resp.text

  images = re.findall('data-original="(.*?)" ', html)
  names =re.findall('title="(.*?)"', html)
  #print(images)
  #print(names)
  dic = dict(zip(images, names))
  for image in images:
    time.sleep(1)
    print(image, dic[image])
    name = dic[image]
    #name = image.split('/')[-1]
    i = r.get(image, headers=headers).content
    try:
      with open(file_name + '/' + name + '.jpg' , 'wb') as f:
       f.write(i)
    except FileNotFoundError:
     continue

先导入要使用的库

import requests as r
import re
import os
import time

然后去分析要去爬的网址: https://www.acgimage.com/shot/recommend

下图是网址的内容:

python爬虫实例之获取动漫截图

好了 url已经确定

下面去寻找headers

python爬虫实例之获取动漫截图

找到user-agent 将其内容复制到headers中

第一步就完成了

下面是代码展示

url = 'https://www.acgimage.com/shot/recommend?page={}'.format(p)
headers = {"user-agent"
   : "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.162 Safari/537.36"
   }

然后检索要爬的图片内容

python爬虫实例之获取动漫截图

从上图就可以找到图片的位置:data-origina=后面的内容
以及图片的名字:title=后面的内容

然后用正则表达式re来检索就行了

images = re.findall('data-original="(.*?)" ', html)
names =re.findall('title="(.*?)"', html)

最后将其保存就好了

i = r.get(image, headers=headers).content
with open(file_name + '/' + name + '.jpg' , 'wb') as f:
     f.write(i)

还有就是一些细节了

比如换页

第一页网址:

https://www.acgimage.com/shot/recommend

第二页网址:https://www.acgimage.com/shot/recommend?page=2

然后将page后面的数字改动就可以跳到相应的页面

换页的问题也就解决了

or p in range(1,34):
    url = 'https://www.acgimage.com/shot/recommend?page={}'.format(p)

以及将爬到的图片放到自己建立的文件zh

使用了os库

file_name = "动漫截图"
 if not os.path.exists(file_name):
   os.mkdir(file_name)

以及为了不影响爬取的网站 使用了sleep函数

虽然爬取的速度慢了一些

但是这是应遵守的道德

time.sleep(1)

以上 这就是我的爬虫过程

还是希望大佬能解决我的错误之处

万分感谢

总结

到此这篇关于python爬虫实例之获取动漫截图的文章就介绍到这了,更多相关python爬虫获取动漫截图内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python编程中的for循环语句学习教程
Oct 14 Python
Python编程中对super函数的正确理解和用法解析
Jul 02 Python
用不到50行的Python代码构建最小的区块链
Nov 16 Python
Python进阶学习之特殊方法实例详析
Dec 01 Python
Python装饰器用法实例总结
Feb 07 Python
python 动态生成变量名以及动态获取变量的变量名方法
Jan 20 Python
python爬虫之遍历单个域名
Nov 20 Python
numpy ndarray 按条件筛选数组,关联筛选的例子
Nov 26 Python
Django框架中间件定义与使用方法案例分析
Nov 28 Python
Django配置文件代码说明
Dec 04 Python
基于python实现检索标记敏感词并输出
May 07 Python
python 解决微分方程的操作(数值解法)
May 26 Python
如何利用Python识别图片中的文字
May 31 #Python
Python模拟登入的N种方式(建议收藏)
May 31 #Python
Python多线程正确用法实例解析
May 30 #Python
PyQt5实现简单的计算器
May 30 #Python
PyQt5实现登录页面
May 30 #Python
Python网页解析器使用实例详解
May 30 #Python
PyQt5实现画布小程序
May 30 #Python
You might like
PHP学习笔记之字符串编码的转换和判断
2014/05/22 PHP
ThinkPHP采用GET方式获取中文参数查询无结果的解决方法
2014/06/26 PHP
php 5.6版本中编写一个PHP扩展的简单示例
2015/01/20 PHP
php制作的简单验证码识别代码
2016/01/26 PHP
SCP远程VPS快速搬家和WDCP升级php5.3安装memcached和eaccelerator教程
2017/07/27 PHP
精心挑选的15款优秀jQuery 本特效插件和教程
2012/08/06 Javascript
JS模拟自动点击的简单实例
2013/08/08 Javascript
禁止选中文字兼容IE、Chrome、FF等
2013/09/04 Javascript
js弹窗返回值详解(window.open方式)
2014/01/11 Javascript
Js表格万条数据瞬间加载实现代码
2014/02/20 Javascript
For循环中分号隔开的3部分的执行顺序探讨
2014/05/27 Javascript
JavaScript 实现完美兼容多浏览器的复制功能代码
2015/04/28 Javascript
JavaScript版经典游戏之扫雷游戏完整示例【附demo源码下载】
2016/12/12 Javascript
用Nodejs搭建服务器访问html、css、JS等静态资源文件
2017/04/28 NodeJs
Thinkphp5微信小程序获取用户信息接口的实例详解
2017/09/26 Javascript
详解设置Webstorm 利用babel将ES6自动转码成ES5
2017/12/20 Javascript
讲解vue-router之什么是动态路由
2018/05/28 Javascript
JS插件clipboard.js实现一键复制粘贴功能
2020/12/04 Javascript
jQuery实现简单的Ajax调用功能示例
2019/02/15 jQuery
python实现socket端口重定向示例
2014/02/10 Python
Python中Django发送带图片和附件的邮件
2017/03/31 Python
Python 内置函数memoryview(obj)的具体用法
2017/11/23 Python
Python中的默认参数实例分析
2018/01/29 Python
Python中浅拷贝copy与深拷贝deepcopy的简单理解
2018/10/26 Python
关于numpy中eye和identity的区别详解
2019/11/29 Python
python中for in的用法详解
2020/04/17 Python
丝芙兰美国官网:SEPHORA美国
2016/08/03 全球购物
美国领先的低折扣旅行网站:Hotwire
2019/01/19 全球购物
安全检查与奖惩制度
2014/01/23 职场文书
网络程序员自荐信
2014/01/25 职场文书
生日主持词
2014/03/20 职场文书
小学语文教学经验交流材料
2014/06/02 职场文书
教师个人成长总结
2015/02/11 职场文书
信贷客户经理岗位职责
2015/04/09 职场文书
春晚观后感
2015/06/11 职场文书
Linux安装Nginx步骤详解
2021/03/31 Servers