python数据爬下来保存的位置


Posted in Python onFebruary 17, 2020

昨天下班后忽然兴起想写一个爬虫抓抓网页上的东西。花了一个钟简单学习了python的基础语法,然后参照网上的例子自己写了个爬虫。

python数据爬下来保存在本地,一般是文件或数据库中,但是文件形式相比要更加简单,如果只是自己写爬虫玩,可以用文件形式来保存数据。

#coding=utf-8
import urllib.request
import re
import os
 
'''
Urllib 模块提供了读取web页面数据的接口,我们可以像读取本地文件一样读取www和ftp上的数据
urlopen 方法用来打开一个url
read方法 用于读取Url上的数据
'''
 
def getHtml(url):
  page = urllib.request.urlopen(url);
  html = page.read();
  return html;
 
def getImg(html):
  imglist = re.findall('img src="(http.*?)"',html
  return imglist
 
html = getHtml("https://www.zhihu.com/question/34378366").decode("utf-8");
imagesUrl = getImg(html);
 
if os.path.exists("D:/imags") == False:
  os.mkdir("D:/imags");
   
count = 0;
for url in imagesUrl:
  print(url)
  if(url.find('.') != -1):
    name = url[url.find('.',len(url) - 5):];
    bytes = urllib.request.urlopen(url);
    f = open("D:/imags/"+str(count)+name, 'wb');
    f.write(bytes.read());
    f.flush();
    f.close();
    count+=1

经测试,基本功能还是可以实现的。花的较多的时间就是正则匹配哪里,因为自己对正则表达式也不是非常熟悉。所以还是花了点时间。

注:上面的程序基于 python 3.5。python3 和 python2 还是有些区别的。我刚开始看基础语法的时候就栽了一些坑里。

以上就是python数据爬下来保存在哪里的详细内容,感谢大家的学习和对三水点靠木的支持。

Python 相关文章推荐
Python天气预报采集器实现代码(网页爬虫)
Oct 07 Python
Python专用方法与迭代机制实例分析
Sep 15 Python
用Python的Flask框架结合MySQL写一个内存监控程序
Nov 07 Python
Python 数据结构之堆栈实例代码
Jan 22 Python
Python3基础教程之递归函数简单示例
Jun 07 Python
python opencv鼠标事件实现画框圈定目标获取坐标信息
Apr 18 Python
Pytorch提取模型特征向量保存至csv的例子
Jan 03 Python
Python爬虫JSON及JSONPath运行原理详解
Jun 04 Python
浅谈python 调用open()打开文件时路径出错的原因
Jun 05 Python
浅谈Python 函数式编程
Jun 20 Python
keras 多任务多loss实例
Jun 22 Python
Jupyter Notebook 如何修改字体和大小以及更改字体样式
Jun 03 Python
使用TFRecord存取多个数据案例
Feb 17 #Python
从多个tfrecord文件中无限读取文件的例子
Feb 17 #Python
Python3连接Mysql8.0遇到的问题及处理步骤
Feb 17 #Python
python3连接MySQL8.0的两种方式
Feb 17 #Python
Win10下安装并使用tensorflow-gpu1.8.0+python3.6全过程分析(显卡MX250+CUDA9.0+cudnn)
Feb 17 #Python
Windows下实现将Pascal VOC转化为TFRecords
Feb 17 #Python
tensorflow生成多个tfrecord文件实例
Feb 17 #Python
You might like
《PHP边学边教》(04.编写简易的通讯录――视频教程1)
2006/12/13 PHP
PHP 强制下载文件代码
2010/10/24 PHP
PHP中array_merge和array相加的区别分析
2013/06/17 PHP
CodeIgniter安全相关设置汇总
2014/07/03 PHP
Symfony2之session与cookie用法小结
2016/03/18 PHP
php获取服务器操作系统相关信息的方法
2016/10/08 PHP
jQuery结合HTML5制作的爱心树表白动画
2015/02/01 Javascript
Javascript编写2048小游戏
2015/07/07 Javascript
详解jQuery停止动画——stop()方法的使用
2016/12/14 Javascript
浅谈JavaScript中promise的使用
2017/01/11 Javascript
基于bootstrop常用类总结(推荐)
2017/09/11 Javascript
js 获取json数组里面数组的长度实例
2017/10/31 Javascript
Bootstrap实现可折叠分组侧边导航菜单
2018/03/07 Javascript
使用JavaScript生成罗马字符的实例代码
2018/06/08 Javascript
element-ui多文件上传的实现示例
2019/04/10 Javascript
[01:30]DOTA2上海特锦赛现场采访 Loda倾情献唱
2016/03/25 DOTA
简述Python中的进程、线程、协程
2016/03/18 Python
在Python中Dataframe通过print输出多行时显示省略号的实例
2018/12/22 Python
Python-ElasticSearch搜索查询的讲解
2019/02/25 Python
Python生成MD5值的两种方法实例分析
2019/04/26 Python
使用opencv将视频帧转成图片输出
2019/12/10 Python
Python标准库json模块和pickle模块使用详解
2020/03/10 Python
Python 实现简单的客户端认证
2020/07/29 Python
日本无添加化妆品:HABA
2016/08/18 全球购物
BRASTY捷克:购买香水、化妆品、手袋和手表
2017/07/12 全球购物
Square Off美国/加拿大:世界上最聪明的国际象棋棋盘
2018/12/06 全球购物
TUMI香港官网:国际领先的行李箱、背囊品牌
2021/03/01 全球购物
上海奥佳笔试题面试题
2016/11/16 面试题
应届生法律求职信
2013/10/22 职场文书
QA工程师岗位职责
2013/11/20 职场文书
环境科学毕业生自荐信
2013/11/21 职场文书
中英文自我评价常用句型
2013/12/19 职场文书
会计岗位职责模板
2014/03/12 职场文书
2014年教师节活动总结
2014/08/29 职场文书
文化大革命观后感
2015/06/17 职场文书
导游词之云南-元阳梯田
2019/10/08 职场文书