python数据爬下来保存的位置


Posted in Python onFebruary 17, 2020

昨天下班后忽然兴起想写一个爬虫抓抓网页上的东西。花了一个钟简单学习了python的基础语法,然后参照网上的例子自己写了个爬虫。

python数据爬下来保存在本地,一般是文件或数据库中,但是文件形式相比要更加简单,如果只是自己写爬虫玩,可以用文件形式来保存数据。

#coding=utf-8
import urllib.request
import re
import os
 
'''
Urllib 模块提供了读取web页面数据的接口,我们可以像读取本地文件一样读取www和ftp上的数据
urlopen 方法用来打开一个url
read方法 用于读取Url上的数据
'''
 
def getHtml(url):
  page = urllib.request.urlopen(url);
  html = page.read();
  return html;
 
def getImg(html):
  imglist = re.findall('img src="(http.*?)"',html
  return imglist
 
html = getHtml("https://www.zhihu.com/question/34378366").decode("utf-8");
imagesUrl = getImg(html);
 
if os.path.exists("D:/imags") == False:
  os.mkdir("D:/imags");
   
count = 0;
for url in imagesUrl:
  print(url)
  if(url.find('.') != -1):
    name = url[url.find('.',len(url) - 5):];
    bytes = urllib.request.urlopen(url);
    f = open("D:/imags/"+str(count)+name, 'wb');
    f.write(bytes.read());
    f.flush();
    f.close();
    count+=1

经测试,基本功能还是可以实现的。花的较多的时间就是正则匹配哪里,因为自己对正则表达式也不是非常熟悉。所以还是花了点时间。

注:上面的程序基于 python 3.5。python3 和 python2 还是有些区别的。我刚开始看基础语法的时候就栽了一些坑里。

以上就是python数据爬下来保存在哪里的详细内容,感谢大家的学习和对三水点靠木的支持。

Python 相关文章推荐
Python使用matplotlib绘制动画的方法
May 20 Python
Python数据类型详解(一)字符串
May 08 Python
Python Paramiko模块的安装与使用详解
Nov 18 Python
利用python爬取斗鱼app中照片方法实例
Dec 03 Python
浅谈django三种缓存模式的使用及注意点
Sep 30 Python
基于django channel实现websocket的聊天室的方法示例
Apr 11 Python
PyQtGraph在pyqt中的应用及安装过程
Aug 04 Python
python实现邮件发送功能
Aug 10 Python
Python使用pymysql模块操作mysql增删改查实例分析
Dec 19 Python
Python进程间通信multiprocess代码实例
Mar 18 Python
浅谈Python描述数据结构之KMP篇
Sep 06 Python
python自动化测试通过日志3分钟定位bug
Nov 20 Python
使用TFRecord存取多个数据案例
Feb 17 #Python
从多个tfrecord文件中无限读取文件的例子
Feb 17 #Python
Python3连接Mysql8.0遇到的问题及处理步骤
Feb 17 #Python
python3连接MySQL8.0的两种方式
Feb 17 #Python
Win10下安装并使用tensorflow-gpu1.8.0+python3.6全过程分析(显卡MX250+CUDA9.0+cudnn)
Feb 17 #Python
Windows下实现将Pascal VOC转化为TFRecords
Feb 17 #Python
tensorflow生成多个tfrecord文件实例
Feb 17 #Python
You might like
php实现读取和写入tab分割的文件
2015/06/01 PHP
php实现图片上传、剪切功能
2016/05/07 PHP
jQuery学习笔记(1)--用jQuery实现异步通信(用json传值)具体思路
2013/04/08 Javascript
js与jquery获取父级元素,子级元素,兄弟元素的实现方法
2014/01/09 Javascript
js限制文本框的输入内容代码分享(3类)
2015/08/20 Javascript
AngularJS中使用HTML5手机摄像头拍照
2016/02/22 Javascript
jquery mobile界面数据刷新的实现方法
2016/05/28 Javascript
js实现为a标签添加事件的方法(使用闭包循环)
2016/08/02 Javascript
JS 数字转换为大写金额的简单实例
2016/08/04 Javascript
JS类的定义与使用方法深入探索
2016/11/26 Javascript
jquery实现静态搜索功能(可输入搜索文字)
2017/03/28 jQuery
基于vue组件实现猜数字游戏
2020/05/28 Javascript
jackson解析json字符串,首字母大写会自动转为小写的方法
2017/12/22 Javascript
基于Vue2.X的路由和钩子函数详解
2018/02/09 Javascript
vue 项目 iOS WKWebView 加载
2019/04/17 Javascript
vue element 中的table动态渲染实现(动态表头)
2019/11/21 Javascript
JavaScript中如何对多维数组(矩阵)去重的实现
2019/12/04 Javascript
微信小程序使用自定义组件导航实现当前页面高亮
2020/01/02 Javascript
JavaScript实现指定数量的并发限制的示例代码
2020/03/10 Javascript
vue动态渲染svg、添加点击事件的实现
2020/03/13 Javascript
JS创建自定义对象的六种方法总结
2020/12/15 Javascript
numpy中的delete删除数组整行和整列的实例
2018/05/09 Python
详解pandas库pd.read_excel操作读取excel文件参数整理与实例
2019/02/17 Python
详解基于python的多张不同宽高图片拼接成大图
2019/09/26 Python
python正则过滤字母、中文、数字及特殊字符方法详解
2020/02/11 Python
用python-webdriver实现自动填表的示例代码
2021/01/13 Python
详解Python模块化编程与装饰器
2021/01/16 Python
德国网上药房:Apotal
2017/04/04 全球购物
澳大利亚领先的皮肤诊所:Skin Matrix(抗衰老、痤疮专家、药妆护肤)
2018/05/20 全球购物
Skyscanner台湾:全球知名的旅行比价引擎
2018/07/01 全球购物
自荐信包含哪些内容
2013/10/30 职场文书
初中数学教学反思
2014/01/16 职场文书
2014年道德讲堂实施方案
2014/03/05 职场文书
经济贸易系毕业生求职信
2014/05/31 职场文书
销售区域经理岗位职责
2015/04/10 职场文书
2016年优秀教师先进事迹材料
2016/02/26 职场文书