python3.4爬虫demo


Posted in Python onJanuary 22, 2019

python 3.4 所写爬虫

仅仅是个demo,以百度图片首页图片为例。能跑出图片上的图片;

使用 eclipse pydev 编写:

from SpiderSimple.HtmLHelper import *
import imp
import sys
imp.reload(sys) 
#sys.setdefaultencoding('utf-8')  
html = getHtml('http://image.baidu.com/')
try:
  getImage(html)
  exit()
except Exception as e:
  print(e)

HtmlHelper.py文件 

上面的 SpiderSimple是自定义的包名

from urllib.request import urlopen,urlretrieve
#正则库
import re
#打开网页
def getHtml(url):
  page = urlopen(url)        
  html = page.read()
  return html
#用正则爬里面的图片地址  
def getImage(Html):
  try:
    #reg = r'src="(.+?\.jpg)" class'
    #image = re.compile(reg)  
    image = re.compile(r'<img[^>]*src[=\"\']+([^\"\']*)[\"\'][^>]*>', re.I)     
    Html = Html.decode('utf-8')
    imaglist = re.findall(image,Html)    
    x =0    
    for imagurl in imaglist:  
      #将图片一个个下载到项目所在文件夹     
      urlretrieve(imagurl, '%s.jpg' % x)
      x+=1 
  except Exception as e:
    print(e)

要注意个大问题,python 默认编码的问题。

有可能报UnicodeDecodeError: 'ascii' codec can't decode byte 0x?? in position 1: ordinal not in range(128),错误。这个要设置python的默认编码为utf-8.

设置最好的方式是写bat文件,

echo off
set PYTHONIOENCODING=utf8
python -u %1

然后重启电脑。

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
Python实现字符串格式化的方法小结
Feb 20 Python
python3大文件解压和基本操作
Dec 15 Python
将TensorFlow的模型网络导出为单个文件的方法
Apr 23 Python
python pandas.DataFrame选取、修改数据最好用.loc,.iloc,.ix实现
Jun 11 Python
python 读取摄像头数据并保存的实例
Aug 03 Python
Windows系统下PhantomJS的安装和基本用法
Oct 21 Python
TensorFlow tensor的拼接实例
Jan 19 Python
解决pytorch-yolov3 train 报错的问题
Feb 18 Python
基于Tensorflow一维卷积用法详解
May 22 Python
详解Tensorflow不同版本要求与CUDA及CUDNN版本对应关系
Aug 04 Python
python实现KNN近邻算法
Dec 30 Python
Autopep8的使用(python自动编排工具)
Mar 02 Python
使用Template格式化Python字符串的方法
Jan 22 #Python
python实现公司年会抽奖程序
Jan 22 #Python
对python函数签名的方法详解
Jan 22 #Python
python实现大转盘抽奖效果
Jan 22 #Python
Python函数返回不定数量的值方法
Jan 22 #Python
python实现转盘效果 python实现轮盘抽奖游戏
Jan 22 #Python
Python Pillow Image Invert
Jan 22 #Python
You might like
$_GET['goods_id']+0 的使用详解
2013/06/06 PHP
smarty内置函数foreach用法实例
2015/01/22 PHP
PHP加密解密类实例代码
2016/07/20 PHP
php中this关键字用法分析
2016/12/07 PHP
PHP+redis实现微博的拉模型案例详解
2019/07/10 PHP
poshytip 基于jquery的 插件 主要用于显示微博人的图像和鼠标提示等
2012/10/12 Javascript
js插件方式打开pdf文件(浏览器pdf插件分享)
2013/12/20 Javascript
jquery+CSS实现的水平布局多级网页菜单效果
2015/08/24 Javascript
阻止表单提交按钮多次提交的完美解决方法
2016/05/16 Javascript
jQuery 如何实现一个滑动按钮开关
2016/12/01 Javascript
Javascript中的prototype与继承
2017/02/06 Javascript
HTML5+jQuery实现搜索智能匹配功能
2017/03/24 jQuery
input输入框内容实时监测(附代码)
2017/08/15 Javascript
NodeJS搭建HTTP服务器的实现步骤
2018/10/12 NodeJs
TypeScript中使用getElementXXX()的示例代码
2019/09/12 Javascript
JavaScript制作3D旋转相册
2020/08/02 Javascript
javascript实现画板功能
2020/04/12 Javascript
[03:35]2018年度DOTA2最佳辅助位选手5号位-完美盛典
2018/12/17 DOTA
详解Numpy中的数组拼接、合并操作(concatenate, append, stack, hstack, vstack, r_, c_等)
2019/05/27 Python
Python坐标线性插值应用实现
2019/11/13 Python
tensorflow的计算图总结
2020/01/12 Python
详解PyQt5信号与槽的几种高级玩法
2020/03/24 Python
详解px单位html5响应式方案
2018/03/08 HTML / CSS
国际花店:Pickup Flowers
2020/04/10 全球购物
区域总监的岗位职责
2013/11/21 职场文书
银行实习鉴定
2013/12/13 职场文书
会计专业大学生职业生涯规划书
2014/02/11 职场文书
合作经营协议书范本
2014/04/17 职场文书
绿色小区申报材料
2014/08/22 职场文书
群众路线教育查摆剖析材料
2014/10/10 职场文书
2014年青年志愿者工作总结
2014/12/09 职场文书
街道社区活动报告
2015/02/05 职场文书
朋友离别感言
2015/08/04 职场文书
2015年幼儿园师德师风建设工作总结
2015/10/23 职场文书
《工作是最好的修行》读后感3篇
2019/12/13 职场文书
总结高并发下Nginx性能如何优化
2021/11/01 Servers