python3.4爬虫demo


Posted in Python onJanuary 22, 2019

python 3.4 所写爬虫

仅仅是个demo,以百度图片首页图片为例。能跑出图片上的图片;

使用 eclipse pydev 编写:

from SpiderSimple.HtmLHelper import *
import imp
import sys
imp.reload(sys) 
#sys.setdefaultencoding('utf-8')  
html = getHtml('http://image.baidu.com/')
try:
  getImage(html)
  exit()
except Exception as e:
  print(e)

HtmlHelper.py文件 

上面的 SpiderSimple是自定义的包名

from urllib.request import urlopen,urlretrieve
#正则库
import re
#打开网页
def getHtml(url):
  page = urlopen(url)        
  html = page.read()
  return html
#用正则爬里面的图片地址  
def getImage(Html):
  try:
    #reg = r'src="(.+?\.jpg)" class'
    #image = re.compile(reg)  
    image = re.compile(r'<img[^>]*src[=\"\']+([^\"\']*)[\"\'][^>]*>', re.I)     
    Html = Html.decode('utf-8')
    imaglist = re.findall(image,Html)    
    x =0    
    for imagurl in imaglist:  
      #将图片一个个下载到项目所在文件夹     
      urlretrieve(imagurl, '%s.jpg' % x)
      x+=1 
  except Exception as e:
    print(e)

要注意个大问题,python 默认编码的问题。

有可能报UnicodeDecodeError: 'ascii' codec can't decode byte 0x?? in position 1: ordinal not in range(128),错误。这个要设置python的默认编码为utf-8.

设置最好的方式是写bat文件,

echo off
set PYTHONIOENCODING=utf8
python -u %1

然后重启电脑。

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
python模拟登录百度贴吧(百度贴吧登录)实例
Dec 18 Python
Python中函数的参数定义和可变参数用法实例分析
Jun 04 Python
利用信号如何监控Django模型对象字段值的变化详解
Nov 27 Python
Tensorflow实现卷积神经网络的详细代码
May 24 Python
Python实现合并两个列表的方法分析
May 28 Python
解决pycharm运行出错,代码正确结果不显示的问题
Nov 30 Python
Django 路由控制的实现
Jul 17 Python
Python读取csv文件实例解析
Dec 30 Python
基于python实现语音录入识别代码实例
Jan 17 Python
Python 整行读取文本方法并去掉readlines换行\n操作
Sep 03 Python
python中Pexpect的工作流程实例讲解
Mar 02 Python
如何用python清洗文件中的数据
Jun 18 Python
使用Template格式化Python字符串的方法
Jan 22 #Python
python实现公司年会抽奖程序
Jan 22 #Python
对python函数签名的方法详解
Jan 22 #Python
python实现大转盘抽奖效果
Jan 22 #Python
Python函数返回不定数量的值方法
Jan 22 #Python
python实现转盘效果 python实现轮盘抽奖游戏
Jan 22 #Python
Python Pillow Image Invert
Jan 22 #Python
You might like
手冲咖啡应该是现代精品咖啡店的必备选项吗?
2021/03/03 冲泡冲煮
php对称加密算法示例
2014/05/07 PHP
PHP网页游戏学习之Xnova(ogame)源码解读(九)
2014/06/24 PHP
php+ajax实现无刷新分页的方法
2014/11/04 PHP
php获取网页里所有图片并存入数组的方法
2015/04/06 PHP
利用Ext Js生成动态树实例代码
2008/09/08 Javascript
JavaScript动态调整TextArea高度的代码
2010/12/28 Javascript
js实现上传图片预览的方法
2015/02/09 Javascript
ECMAScript6块级作用域及新变量声明(let)
2015/06/12 Javascript
AngularJS 实现按需异步加载实例代码
2015/10/18 Javascript
JS实现输入框提示文字点击时消失效果
2016/07/19 Javascript
jQuery轻松实现无缝轮播效果
2017/03/22 jQuery
.net MVC+Bootstrap下使用localResizeIMG上传图片
2017/04/21 Javascript
VUE + UEditor 单图片跨域上传功能的实现方法
2018/02/08 Javascript
详解微信小程序获取当前时间及日期的方法
2019/04/28 Javascript
微信小程序 checkbox使用实例解析
2019/09/09 Javascript
vue中使用element组件时事件想要传递其他参数的问题
2019/09/18 Javascript
vue表单中遍历表单操作按钮的显示隐藏示例
2019/10/30 Javascript
微信小程序开发中var that =this的用法详解
2020/01/18 Javascript
Python中的列表生成式与生成器学习教程
2016/03/13 Python
python对excel文档去重及求和的实例
2018/04/18 Python
Python多线程模块Threading用法示例小结
2019/11/09 Python
Python numpy数组转置与轴变换
2019/11/15 Python
基于pytorch的lstm参数使用详解
2020/01/14 Python
python pprint模块中print()和pprint()两者的区别
2020/02/10 Python
在django admin中配置搜索域是一个外键时的处理方法
2020/05/20 Python
CSS3 中的@keyframes介绍
2014/09/02 HTML / CSS
基于HTML5 audio元素播放声音jQuery小插件
2011/05/11 HTML / CSS
详解canvas.toDataURL()报错的解决方案全都在这了
2020/03/31 HTML / CSS
Bootstrap File Input文件上传组件
2020/12/01 HTML / CSS
阿里巴巴英国:Alibaba英国
2019/12/11 全球购物
《长相思》听课反思
2014/04/10 职场文书
校园游戏活动新闻稿
2014/10/15 职场文书
县级领导干部开展党的群众路线教育实践活动工作汇报
2014/10/25 职场文书
物业保洁员管理制度
2015/08/05 职场文书
MySQL学习之基础操作总结
2022/03/19 MySQL