python数据爬下来保存的位置


Posted in Python onFebruary 17, 2020

昨天下班后忽然兴起想写一个爬虫抓抓网页上的东西。花了一个钟简单学习了python的基础语法,然后参照网上的例子自己写了个爬虫。

python数据爬下来保存在本地,一般是文件或数据库中,但是文件形式相比要更加简单,如果只是自己写爬虫玩,可以用文件形式来保存数据。

#coding=utf-8
import urllib.request
import re
import os
 
'''
Urllib 模块提供了读取web页面数据的接口,我们可以像读取本地文件一样读取www和ftp上的数据
urlopen 方法用来打开一个url
read方法 用于读取Url上的数据
'''
 
def getHtml(url):
  page = urllib.request.urlopen(url);
  html = page.read();
  return html;
 
def getImg(html):
  imglist = re.findall('img src="(http.*?)"',html
  return imglist
 
html = getHtml("https://www.zhihu.com/question/34378366").decode("utf-8");
imagesUrl = getImg(html);
 
if os.path.exists("D:/imags") == False:
  os.mkdir("D:/imags");
   
count = 0;
for url in imagesUrl:
  print(url)
  if(url.find('.') != -1):
    name = url[url.find('.',len(url) - 5):];
    bytes = urllib.request.urlopen(url);
    f = open("D:/imags/"+str(count)+name, 'wb');
    f.write(bytes.read());
    f.flush();
    f.close();
    count+=1

经测试,基本功能还是可以实现的。花的较多的时间就是正则匹配哪里,因为自己对正则表达式也不是非常熟悉。所以还是花了点时间。

注:上面的程序基于 python 3.5。python3 和 python2 还是有些区别的。我刚开始看基础语法的时候就栽了一些坑里。

以上就是python数据爬下来保存在哪里的详细内容,感谢大家的学习和对三水点靠木的支持。

Python 相关文章推荐
Cpy和Python的效率对比
Mar 20 Python
python使用三角迭代计算圆周率PI的方法
Mar 20 Python
Python函数式编程指南(三):迭代器详解
Jun 24 Python
使用python检测主机存活端口及检查存活主机
Oct 12 Python
通过Py2exe将自己的python程序打包成.exe/.app的方法
May 26 Python
python实现比较文件内容异同
Jun 22 Python
python 接收处理外带的参数方法
Dec 03 Python
Python 处理图片像素点的实例
Jan 08 Python
解决tensorflow 释放图,删除变量问题
Jun 23 Python
完美解决TensorFlow和Keras大数据量内存溢出的问题
Jul 03 Python
python实现批处理文件
Jul 28 Python
Python 防止死锁的方法
Jul 29 Python
使用TFRecord存取多个数据案例
Feb 17 #Python
从多个tfrecord文件中无限读取文件的例子
Feb 17 #Python
Python3连接Mysql8.0遇到的问题及处理步骤
Feb 17 #Python
python3连接MySQL8.0的两种方式
Feb 17 #Python
Win10下安装并使用tensorflow-gpu1.8.0+python3.6全过程分析(显卡MX250+CUDA9.0+cudnn)
Feb 17 #Python
Windows下实现将Pascal VOC转化为TFRecords
Feb 17 #Python
tensorflow生成多个tfrecord文件实例
Feb 17 #Python
You might like
php单件模式结合命令链模式使用说明
2008/09/07 PHP
php用户注册页面利用js进行表单验证具体实例
2013/10/17 PHP
PHP伪静态Rewrite设置之APACHE篇
2014/07/30 PHP
Linux下安装PHP MSSQL扩展教程
2014/10/24 PHP
PHP二维关联数组的遍历方式(实例讲解)
2017/10/18 PHP
php 读取文件夹下所有图片、文件的实例
2018/10/17 PHP
javascript 学习笔记(一)DOM基本操作
2011/04/08 Javascript
JavaScript 代码压缩工具小结
2012/02/27 Javascript
jQuery与getJson结合的用法实例
2015/08/07 Javascript
谈谈encodeURI和encodeURIComponent以及escape的区别与应用
2015/11/24 Javascript
JS Attribute属性操作详解
2016/05/19 Javascript
最全面的百度地图JavaScript离线版开发
2016/09/10 Javascript
基于Vuejs框架实现翻页组件
2020/06/29 Javascript
vue 计时器组件的实现代码
2017/09/14 Javascript
php 解压zip压缩包内容到指定目录的实例
2018/01/23 Javascript
antd组件Upload实现自己上传的实现示例
2018/12/18 Javascript
详解Vue源码中一些util函数
2019/04/24 Javascript
vue 路由懒加载中给 Webpack Chunks 命名的方法
2020/04/24 Javascript
[07:09]DOTA2-DPC中国联赛 正赛 Ehome vs Elephant 选手采访
2021/03/11 DOTA
使用Python的PEAK来适配协议的教程
2015/04/14 Python
利用pyinstaller或virtualenv将python程序打包详解
2017/03/22 Python
http请求 request失败自动重新尝试代码示例
2018/01/25 Python
python和shell监控linux服务器的详细代码
2018/06/22 Python
微信公众号token验证失败解决方案
2019/07/22 Python
使用PyTorch将文件夹下的图片分为训练集和验证集实例
2020/01/08 Python
基于Python下载网络图片方法汇总代码实例
2020/06/24 Python
简单掌握CSS3将文字描边及填充文字颜色的方法
2016/03/07 HTML / CSS
英国高档时尚男装购物网站:MR PORTER
2016/08/09 全球购物
北京一家公司的.net开发工程师笔试题
2012/04/17 面试题
中专毕业生个人职业生涯规划
2014/02/19 职场文书
幼儿园见习报告
2014/10/30 职场文书
2014年安全员工作总结
2014/11/13 职场文书
公司承诺函范文
2015/01/21 职场文书
给病人的慰问信
2015/03/23 职场文书
个人自荐书怎么写
2015/03/26 职场文书
pd.drop_duplicates删除重复行的方法实现
2022/06/16 Python