编程 Python

python3.4爬虫demo

Posted in Python onJanuary 22, 2019

python 3.4 所写爬虫

仅仅是个demo，以百度图片首页图片为例。能跑出图片上的图片；

使用 eclipse pydev 编写：

from SpiderSimple.HtmLHelper import *
import imp
import sys
imp.reload(sys) 
#sys.setdefaultencoding('utf-8')  
html = getHtml('http://image.baidu.com/')
try:
  getImage(html)
  exit()
except Exception as e:
  print(e)

HtmlHelper.py文件

上面的 SpiderSimple是自定义的包名

from urllib.request import urlopen,urlretrieve
#正则库
import re
#打开网页
def getHtml(url):
  page = urlopen(url)        
  html = page.read()
  return html
#用正则爬里面的图片地址  
def getImage(Html):
  try:
    #reg = r'src="(.+?\.jpg)" class'
    #image = re.compile(reg)  
    image = re.compile(r'<img[^>]*src[=\"\']+([^\"\']*)[\"\'][^>]*>', re.I)     
    Html = Html.decode('utf-8')
    imaglist = re.findall(image,Html)    
    x =0    
    for imagurl in imaglist:  
      #将图片一个个下载到项目所在文件夹     
      urlretrieve(imagurl, '%s.jpg' % x)
      x+=1 
  except Exception as e:
    print(e)

要注意个大问题，python 默认编码的问题。

有可能报UnicodeDecodeError: 'ascii' codec can't decode byte 0x?? in position 1: ordinal not in range(128)，错误。这个要设置python的默认编码为utf-8.

设置最好的方式是写bat文件，

echo off
set PYTHONIOENCODING=utf8
python -u %1

然后重启电脑。

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

python3.4爬虫demo

- Author -

chenqiangdage

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python实现字符串格式化的方法小结

Feb 20 Python

python3大文件解压和基本操作

Dec 15 Python

将TensorFlow的模型网络导出为单个文件的方法

Apr 23 Python

python pandas.DataFrame选取、修改数据最好用.loc,.iloc,.ix实现

Jun 11 Python

python 读取摄像头数据并保存的实例

Aug 03 Python

Windows系统下PhantomJS的安装和基本用法

Oct 21 Python

TensorFlow tensor的拼接实例

Jan 19 Python

解决pytorch-yolov3 train 报错的问题

Feb 18 Python

基于Tensorflow一维卷积用法详解

May 22 Python

详解Tensorflow不同版本要求与CUDA及CUDNN版本对应关系

Aug 04 Python

python实现KNN近邻算法

Dec 30 Python

Autopep8的使用(python自动编排工具)

Mar 02 Python

使用Template格式化Python字符串的方法

Jan 22 #Python

python实现公司年会抽奖程序

Jan 22 #Python

对python函数签名的方法详解

Jan 22 #Python

python实现大转盘抽奖效果

Jan 22 #Python

Python函数返回不定数量的值方法

Jan 22 #Python

python实现转盘效果 python实现轮盘抽奖游戏

Jan 22 #Python

Python Pillow Image Invert

Jan 22 #Python

You might like

$_GET['goods_id']+0 的使用详解

2013/06/06 PHP

smarty内置函数foreach用法实例

2015/01/22 PHP

PHP加密解密类实例代码

2016/07/20 PHP

php中this关键字用法分析

2016/12/07 PHP

PHP+redis实现微博的拉模型案例详解

2019/07/10 PHP

poshytip 基于jquery的插件主要用于显示微博人的图像和鼠标提示等

2012/10/12 Javascript

js插件方式打开pdf文件(浏览器pdf插件分享)

2013/12/20 Javascript

jquery+CSS实现的水平布局多级网页菜单效果

2015/08/24 Javascript

阻止表单提交按钮多次提交的完美解决方法

2016/05/16 Javascript

jQuery 如何实现一个滑动按钮开关

2016/12/01 Javascript

Javascript中的prototype与继承

2017/02/06 Javascript

HTML5+jQuery实现搜索智能匹配功能

2017/03/24 jQuery

input输入框内容实时监测(附代码)

2017/08/15 Javascript

NodeJS搭建HTTP服务器的实现步骤

2018/10/12 NodeJs

TypeScript中使用getElementXXX()的示例代码

2019/09/12 Javascript

JavaScript制作3D旋转相册

2020/08/02 Javascript

javascript实现画板功能

2020/04/12 Javascript

[03:35]2018年度DOTA2最佳辅助位选手5号位-完美盛典

2018/12/17 DOTA

详解Numpy中的数组拼接、合并操作（concatenate, append, stack, hstack, vstack, r_, c_等）

2019/05/27 Python

Python坐标线性插值应用实现

2019/11/13 Python

tensorflow的计算图总结

2020/01/12 Python

详解PyQt5信号与槽的几种高级玩法

2020/03/24 Python

详解px单位html5响应式方案

2018/03/08 HTML / CSS

国际花店：Pickup Flowers

2020/04/10 全球购物

区域总监的岗位职责

2013/11/21 职场文书

银行实习鉴定

2013/12/13 职场文书

会计专业大学生职业生涯规划书

2014/02/11 职场文书

合作经营协议书范本

2014/04/17 职场文书

绿色小区申报材料

2014/08/22 职场文书

群众路线教育查摆剖析材料

2014/10/10 职场文书

2014年青年志愿者工作总结

2014/12/09 职场文书

街道社区活动报告

2015/02/05 职场文书

朋友离别感言

2015/08/04 职场文书

2015年幼儿园师德师风建设工作总结

2015/10/23 职场文书

《工作是最好的修行》读后感3篇

2019/12/13 职场文书

总结高并发下Nginx性能如何优化

2021/11/01 Servers