编程 Python

Python3实现Web网页图片下载

Posted in Python onJanuary 28, 2016

先来介绍一些python web编程基础知识

1. GET与POST区别

1)POST是被设计用来向web服务器上放东西的，而GET是被设计用来从服务器取东西的，GET也能够向服务器传送较少的数据，而Get之所以也能传送数据,只是用来设计告诉服务器,你到底需要什么样的数据.POST的信息作为HTTP 请求的内容，而GET是在HTTP 头部传输的；

2)POST与GET在HTTP 中传送的方式不同，GET的参数是在HTTP 的头部传送的，而Post的数据则是在HTTP 请求的内容里传送;

3)POST传输数据时，不需要在URL中显示出来，而GET方法要在URL中显示；

4)GET方法由于受到URL长度的限制,只能传递大约1024字节；POST传输的数据量大，可以达到2M

2. Cookies技术

Cookies现在经常被大家提到，那么到底什么是Cookies，它有什么作用呢？

Cookies是一种能够让网站服务器把少量数据储存到客户端的硬盘或内存，或是从客户端的硬盘读取数据的一种技术。Cookies是当你浏览某网站时，由Web服务器置于你硬盘上的一个非常小的文本文件，它可以记录你的用户ID、密码、浏览过的网页、停留的时间等信息。

当你再次来到该网站时，网站通过读取Cookies，得知你的相关信息，就可以做出相应的动作，如在页面显示欢迎你的标语，或者让你不用输入ID、密码就直接登录等等。

从本质上讲，它可以看作是你的身份证。但Cookies不能作为代码执行，也不会传送病毒，且为你所专有，并只能由提供它的服务器来读取。

保存的信息片断以“名/值”对(name-value pairs)的形式储存，一个“名/值”对仅仅是一条命名的数据。

一个网站只能取得它放在你的电脑中的信息，它无法从其它的Cookies文件中取得信息，也无法得到你的电脑上的其它任何东西。

Cookies中的内容大多数经过了加密处理，因此一般用户看来只是一些毫无意义的字母数字组合，只有服务器的CGI处理程序才知道它们真正的含义。

Python3通过Web网页图片下载基本功能点

要实现的主要功能点:
解析网页中的图片链接
对图片链接进行检测，如果图片格式图片大小不符合要求，则不下载
加入异常处理机制
自动文件名提取，从图片链接直接提取文件名

Python3通过Web网页图片下载参考代码:

from urllib import request
import threading
from time import sleep,ctime
from html import parser
def downjpg( filepath,FileName ="default.jpg" ):
 try:
  web = request.urlopen( filepath)
  print("访问网络文件"+filepath+"\n")
  jpg = web.read()
  DstDir="E:\\image\\"
  print("保存文件"+DstDir+FileName+"\n")
  try:
   File = open( DstDir+FileName,"wb" )
   File.write( jpg)
   File.close()
   return
  except IOError:
   print("error\n")
   return
 except Exception:
  print("error\n")
  return
def downjpgmutithread( filepathlist ):
 print("共有%d个文件需要下载"%len(filepathlist))
 for file in filepathlist:
  print( file )
 print("开始多线程下载")
 task_threads=[] #存储线程
 count=1
 for file in filepathlist:
  t= threading.Thread( target=downjpg,args=(file,"%d.jpg"%count) )
  count=count+1
  task_threads.append(t)
 for task in task_threads:
  task.start()
 for task in task_threads:
  task.join() #等待所有线程结束
 print("线程结束")
class parserLinks( parser.HTMLParser):
 filelist=[]
 def handle_starttag(self,tag,attrs):
  if tag == 'img':
   for name,value in attrs:
    if name == 'src':
     print( value)
     self.filelist.append(value)
     #print( self.get_starttag_text() )
 def getfilelist(self):
  return self.filelist
def main(WebUrl):
 #globals flist
 if __name__ == "__main__":
  lparser = parserLinks()
  web = request.urlopen( WebUrl )
  #context= web.read()
  for context in web.readlines():
   _str="%s"%context
   try:
    lparser.feed( _str)
   except parser.HTMLParseError:
    #print( "parser error")
    pass
  web.close()
  imagelist= lparser.getfilelist()
  downjpgmutithread( imagelist)  
  #downjpgmutithread( flist)
#WebUrl="http://www.baidu.com/" #要抓去的网页链接,默认保存到e盘
WebUrl="http://hi.baidu.com/yuyinxuezi/item/df0b59140a06be27f6625cd4"
main(WebUrl)

以上就是Python3实现Web网页图片下载的相关介绍，希望对大家的学习有所帮助。

Python3实现Web网页图片下载

- Author -

lijiao

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python抓取网页内容示例分享

Feb 24 Python

Python随机生成信用卡卡号的实现方法

May 14 Python

python&MongoDB爬取图书馆借阅记录

Feb 05 Python

python导入时小括号大作用

Jan 10 Python

Python2.7基于笛卡尔积算法实现N个数组的排列组合运算示例

Nov 23 Python

numpy排序与集合运算用法示例

Dec 15 Python

python 读取目录下csv文件并绘制曲线v111的方法

Jul 06 Python

Python super()方法原理详解

Mar 31 Python

Pycharm插件(Grep Console)自定义规则输出颜色日志的方法

May 27 Python

用python发送微信消息

Dec 21 Python

Python使用openpyxl批量处理数据

Jun 23 Python

python数据可视化使用pyfinance分析证券收益示例详解

Nov 20 Python

Python正则获取、过滤或者替换HTML标签的方法

Jan 28 #Python

Python每天必学之bytes字节

Jan 28 #Python

Python装饰器入门学习教程(九步学习)

Jan 28 #Python

基于Python如何使用AIML搭建聊天机器人

Jan 27 #Python

使用Python写个小监控

Jan 27 #Python

基于Python实现通过微信搜索功能查看谁把你删除了

Jan 27 #Python

Python图像灰度变换及图像数组操作

Jan 27 #Python

克隆(1) IC-R9500(1) 增删查改(1) #{}(1) SQL注入(2) 脏读(2) 外键(1) 代理(2) canvas(2) 选择器(1)

You might like

PHP简单系统数据添加以及数据删除模块源文件下载

2008/06/07 PHP

第4章数据处理-php字符串的处理-郑阿奇(续)

2011/07/04 PHP

php操作access数据库的方法详解

2017/02/22 PHP

Yii2框架中日志的使用方法分析

2017/05/22 PHP

php使用redis的有序集合zset实现延迟队列应用示例

2020/02/20 PHP

70+漂亮且极具亲和力的导航菜单设计国外网站推荐

2011/09/20 Javascript

Angularjs 基础入门

2014/12/26 Javascript

原生JS实现的放大镜效果实例代码

2016/10/15 Javascript

微信小程序教程之事件

2016/10/18 Javascript

微信小程序 wx.login解密出现乱码的问题解决办法

2017/03/10 Javascript

详解vue数据渲染出现闪烁问题

2017/06/29 Javascript

vue实现div拖拽互换位置

2020/07/29 Javascript

vue.js+ElementUI实现进度条提示密码强度效果

2020/01/18 Javascript

Vue项目移动端滚动穿透问题的实现

2020/05/19 Javascript

[02:46]2014DOTA2国际邀请赛选手为你解读比赛MVP充满梦想

2014/07/09 DOTA

[02:23]1个至宝=115个英雄特效最“绿”至宝拉比克“魔导师密钥”登场

2018/12/29 DOTA

Python 序列的方法总结

2016/10/18 Python

Python内置函数OCT详解

2016/11/09 Python

Python 通过requests实现腾讯新闻抓取爬虫的方法

2019/02/22 Python

在Python中过滤Windows文件名中的非法字符方法

2019/06/10 Python

python写日志文件操作类与应用示例

2019/07/01 Python

pytorch cuda上tensor的定义以及减少cpu的操作详解

2020/06/23 Python

html5 canvas 使用示例

2010/10/22 HTML / CSS

Myprotein瑞典官方网站：畅销欧洲英国运动营养品牌

2018/01/22 全球购物

书法培训心得体会

2014/01/05 职场文书

护士自我鉴定怎么写

2014/02/07 职场文书

工商企业管理专业自荐信范文

2014/04/12 职场文书

2014年党务公开方案

2014/05/08 职场文书

商务日语专业的自荐信

2014/05/23 职场文书

六一儿童节活动总结

2014/08/27 职场文书

史上最牛的辞职信

2015/02/28 职场文书

公积金具结保证书

2015/05/11 职场文书

2016年教师节感言

2015/12/09 职场文书

三严三实·严以用权心得体会

2016/01/12 职场文书

iPhone13再次曝光

2021/04/15 数码科技

JavaScript 数组去重详解

2021/09/15 Javascript