python数据爬下来保存的位置


Posted in Python onFebruary 17, 2020

昨天下班后忽然兴起想写一个爬虫抓抓网页上的东西。花了一个钟简单学习了python的基础语法,然后参照网上的例子自己写了个爬虫。

python数据爬下来保存在本地,一般是文件或数据库中,但是文件形式相比要更加简单,如果只是自己写爬虫玩,可以用文件形式来保存数据。

#coding=utf-8
import urllib.request
import re
import os
 
'''
Urllib 模块提供了读取web页面数据的接口,我们可以像读取本地文件一样读取www和ftp上的数据
urlopen 方法用来打开一个url
read方法 用于读取Url上的数据
'''
 
def getHtml(url):
  page = urllib.request.urlopen(url);
  html = page.read();
  return html;
 
def getImg(html):
  imglist = re.findall('img src="(http.*?)"',html
  return imglist
 
html = getHtml("https://www.zhihu.com/question/34378366").decode("utf-8");
imagesUrl = getImg(html);
 
if os.path.exists("D:/imags") == False:
  os.mkdir("D:/imags");
   
count = 0;
for url in imagesUrl:
  print(url)
  if(url.find('.') != -1):
    name = url[url.find('.',len(url) - 5):];
    bytes = urllib.request.urlopen(url);
    f = open("D:/imags/"+str(count)+name, 'wb');
    f.write(bytes.read());
    f.flush();
    f.close();
    count+=1

经测试,基本功能还是可以实现的。花的较多的时间就是正则匹配哪里,因为自己对正则表达式也不是非常熟悉。所以还是花了点时间。

注:上面的程序基于 python 3.5。python3 和 python2 还是有些区别的。我刚开始看基础语法的时候就栽了一些坑里。

以上就是python数据爬下来保存在哪里的详细内容,感谢大家的学习和对三水点靠木的支持。

Python 相关文章推荐
Python文件去除注释的方法
May 25 Python
使用Python简单的实现树莓派的WEB控制
Feb 18 Python
使用Python对SQLite数据库操作
Apr 06 Python
Python基于pandas实现json格式转换成dataframe的方法
Jun 22 Python
Python实现iOS自动化打包详解步骤
Oct 03 Python
Python解决两个整数相除只得到整数部分的实例
Nov 10 Python
Python实现繁?转为简体的方法示例
Dec 18 Python
python 读取Linux服务器上的文件方法
Dec 27 Python
python实现批量注册网站用户的示例
Feb 22 Python
python报错: 'list' object has no attribute 'shape'的解决
Jul 15 Python
Python读取图像并显示灰度图的实现
Dec 01 Python
Python新建项目自动添加介绍和utf-8编码的方法
Dec 26 Python
使用TFRecord存取多个数据案例
Feb 17 #Python
从多个tfrecord文件中无限读取文件的例子
Feb 17 #Python
Python3连接Mysql8.0遇到的问题及处理步骤
Feb 17 #Python
python3连接MySQL8.0的两种方式
Feb 17 #Python
Win10下安装并使用tensorflow-gpu1.8.0+python3.6全过程分析(显卡MX250+CUDA9.0+cudnn)
Feb 17 #Python
Windows下实现将Pascal VOC转化为TFRecords
Feb 17 #Python
tensorflow生成多个tfrecord文件实例
Feb 17 #Python
You might like
PHP 第二节 数据类型之数值型
2012/04/28 PHP
PHP IDE PHPStorm配置支持友好Laravel代码提示方法
2015/05/12 PHP
php处理静态页面:页面设置缓存时间实例
2017/06/22 PHP
jQuery实现表格行和列的动态添加与删除方法【测试可用】
2016/08/01 Javascript
jQuery获取file控件中图片的宽高与大小
2016/08/04 Javascript
详谈jQuery中使用attr(), prop(), val()获取value的异同
2017/04/25 jQuery
php 修改密码实现代码
2017/05/24 Javascript
JS实现新建文件夹功能
2017/06/17 Javascript
基于jQuery的左滑出现删除按钮的示例
2017/08/29 jQuery
jQuery与vue实现拖动验证码功能
2018/01/30 jQuery
React组件中的this的具体使用
2018/02/28 Javascript
Vue父子组件之间的通信实例详解
2018/09/28 Javascript
checkbox在vue中的用法小结
2018/11/13 Javascript
从vue源码看props的用法
2019/01/09 Javascript
微信小程序使用wx.request请求服务器json数据并渲染到页面操作示例
2019/03/30 Javascript
微信小程序 wepy框架与iview-weapp的用法详解
2019/04/10 Javascript
Nuxt配置Element-UI按需引入的操作方法
2020/07/06 Javascript
Vue实现摇一摇功能(兼容ios13.3以上)
2021/01/26 Vue.js
Python中运行并行任务技巧
2015/02/26 Python
机器学习python实战之决策树
2017/11/01 Python
Python实现类似比特币的加密货币区块链的创建与交易实例
2018/03/20 Python
Flask和Django框架中自定义模型类的表名、父类相关问题分析
2018/07/19 Python
python爬虫自动创建文件夹的功能
2018/08/01 Python
网易2016研发工程师编程题 奖学金(python)
2019/06/19 Python
用python求一个数组的和与平均值的实现方法
2019/06/29 Python
Python 实现的 Google 批量翻译功能
2019/08/26 Python
python调用c++返回带成员指针的类指针实例
2019/12/12 Python
Hibernate持久层技术
2013/12/16 面试题
药学专业个人自我评价
2013/11/11 职场文书
劳动竞赛活动方案
2014/02/20 职场文书
大学老师推荐信
2014/02/25 职场文书
绿色环保家庭事迹材料
2014/08/31 职场文书
房屋产权共有协议书范本
2014/11/03 职场文书
健康证明
2015/06/19 职场文书
办公室日常管理制度
2015/08/04 职场文书
Java使用Unsafe类的示例详解
2021/09/25 Java/Android