python3.4爬虫demo


Posted in Python onJanuary 22, 2019

python 3.4 所写爬虫

仅仅是个demo,以百度图片首页图片为例。能跑出图片上的图片;

使用 eclipse pydev 编写:

from SpiderSimple.HtmLHelper import *
import imp
import sys
imp.reload(sys) 
#sys.setdefaultencoding('utf-8')  
html = getHtml('http://image.baidu.com/')
try:
  getImage(html)
  exit()
except Exception as e:
  print(e)

HtmlHelper.py文件 

上面的 SpiderSimple是自定义的包名

from urllib.request import urlopen,urlretrieve
#正则库
import re
#打开网页
def getHtml(url):
  page = urlopen(url)        
  html = page.read()
  return html
#用正则爬里面的图片地址  
def getImage(Html):
  try:
    #reg = r'src="(.+?\.jpg)" class'
    #image = re.compile(reg)  
    image = re.compile(r'<img[^>]*src[=\"\']+([^\"\']*)[\"\'][^>]*>', re.I)     
    Html = Html.decode('utf-8')
    imaglist = re.findall(image,Html)    
    x =0    
    for imagurl in imaglist:  
      #将图片一个个下载到项目所在文件夹     
      urlretrieve(imagurl, '%s.jpg' % x)
      x+=1 
  except Exception as e:
    print(e)

要注意个大问题,python 默认编码的问题。

有可能报UnicodeDecodeError: 'ascii' codec can't decode byte 0x?? in position 1: ordinal not in range(128),错误。这个要设置python的默认编码为utf-8.

设置最好的方式是写bat文件,

echo off
set PYTHONIOENCODING=utf8
python -u %1

然后重启电脑。

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
Python中的闭包实例详解
Aug 29 Python
Python提示[Errno 32]Broken pipe导致线程crash错误解决方法
Nov 19 Python
为Python的web框架编写前端模版的教程
Apr 30 Python
深入解析Python中的线程同步方法
Jun 14 Python
Python2.7基于笛卡尔积算法实现N个数组的排列组合运算示例
Nov 23 Python
Python基于win32ui模块创建弹出式菜单示例
May 09 Python
python3第三方爬虫库BeautifulSoup4安装教程
Jun 19 Python
Python 脚本获取ES 存储容量的实例
Dec 27 Python
Python3视频转字符动画的实例代码
Aug 29 Python
tensorboard实现同时显示训练曲线和测试曲线
Jan 21 Python
opencv+python实现均值滤波
Feb 19 Python
Django Admin后台添加数据库视图过程解析
Apr 01 Python
使用Template格式化Python字符串的方法
Jan 22 #Python
python实现公司年会抽奖程序
Jan 22 #Python
对python函数签名的方法详解
Jan 22 #Python
python实现大转盘抽奖效果
Jan 22 #Python
Python函数返回不定数量的值方法
Jan 22 #Python
python实现转盘效果 python实现轮盘抽奖游戏
Jan 22 #Python
Python Pillow Image Invert
Jan 22 #Python
You might like
PHP 调试工具Debug Tools
2011/04/30 PHP
修改php.ini以达到屏蔽错误信息并记录日志
2013/06/16 PHP
window.open()弹出居中的窗口
2007/02/01 Javascript
在JavaScript中获取请求的URL参数
2010/12/22 Javascript
js定义对象或数组直接量时各浏览器对多余逗号的处理(json)
2011/03/05 Javascript
基于jquery的点击链接插入链接内容的代码
2012/07/31 Javascript
js实现运动logo图片效果及运动元素对象sportBox使用方法
2012/12/25 Javascript
jquery自定义属性(类型/属性值)
2013/05/21 Javascript
Bootstrap3.0学习教程之JS折叠插件
2016/05/27 Javascript
JavaScript+Java实现HTML页面转为PDF文件保存的方法
2016/05/30 Javascript
微信小程序 实战程序简易新闻的制作
2017/01/09 Javascript
jQuery实现简易的输入框字数计数功能示例
2017/01/16 Javascript
Vue.js教程之axios与网络传输的学习实践
2017/04/29 Javascript
详解Vue基于 Nuxt.js 实现服务端渲染(SSR)
2018/04/05 Javascript
Vue组件教程之Toast(Vue.extend 方式)详解
2019/01/27 Javascript
Vue使用鼠标在Canvas上绘制矩形
2020/12/24 Vue.js
[06:35]2014DOTA2国际邀请赛 老男孩梦圆西雅图中国军团世界最强
2014/07/22 DOTA
python获取外网ip地址的方法总结
2015/07/02 Python
python skimage 连通性区域检测方法
2018/06/21 Python
python批量爬取下载抖音视频
2019/06/17 Python
Django框架静态文件处理、中间件、上传文件操作实例详解
2020/02/29 Python
Python实现将元组中的元素作为参数传入函数的操作
2020/06/05 Python
浅谈numpy中函数resize与reshape,ravel与flatten的区别
2020/06/18 Python
在pytorch中动态调整优化器的学习率方式
2020/06/24 Python
纯CSS改变webkit内核浏览器的滚动条样式
2014/04/17 HTML / CSS
美国智能家居专家:tink
2019/06/04 全球购物
美国精品地毯网站:Boutique Rugs
2020/03/04 全球购物
俄罗斯奢侈品牌衣服、鞋子和配饰的在线商店:INTERMODA
2020/07/17 全球购物
意大利在线高尔夫商店:Online Golf
2021/03/09 全球购物
函授本科自我鉴定
2014/02/04 职场文书
业务内勤岗位职责
2014/04/30 职场文书
机关干部四风问题自我剖析及整改措施
2014/10/26 职场文书
司考复习计划
2015/01/19 职场文书
学前教育见习总结
2015/06/23 职场文书
初中教务主任竞聘演讲稿(范文)
2019/08/20 职场文书
Golang并发操作中常见的读写锁详析
2021/08/30 Golang