python数据爬下来保存的位置


Posted in Python onFebruary 17, 2020

昨天下班后忽然兴起想写一个爬虫抓抓网页上的东西。花了一个钟简单学习了python的基础语法,然后参照网上的例子自己写了个爬虫。

python数据爬下来保存在本地,一般是文件或数据库中,但是文件形式相比要更加简单,如果只是自己写爬虫玩,可以用文件形式来保存数据。

#coding=utf-8
import urllib.request
import re
import os
 
'''
Urllib 模块提供了读取web页面数据的接口,我们可以像读取本地文件一样读取www和ftp上的数据
urlopen 方法用来打开一个url
read方法 用于读取Url上的数据
'''
 
def getHtml(url):
  page = urllib.request.urlopen(url);
  html = page.read();
  return html;
 
def getImg(html):
  imglist = re.findall('img src="(http.*?)"',html
  return imglist
 
html = getHtml("https://www.zhihu.com/question/34378366").decode("utf-8");
imagesUrl = getImg(html);
 
if os.path.exists("D:/imags") == False:
  os.mkdir("D:/imags");
   
count = 0;
for url in imagesUrl:
  print(url)
  if(url.find('.') != -1):
    name = url[url.find('.',len(url) - 5):];
    bytes = urllib.request.urlopen(url);
    f = open("D:/imags/"+str(count)+name, 'wb');
    f.write(bytes.read());
    f.flush();
    f.close();
    count+=1

经测试,基本功能还是可以实现的。花的较多的时间就是正则匹配哪里,因为自己对正则表达式也不是非常熟悉。所以还是花了点时间。

注:上面的程序基于 python 3.5。python3 和 python2 还是有些区别的。我刚开始看基础语法的时候就栽了一些坑里。

以上就是python数据爬下来保存在哪里的详细内容,感谢大家的学习和对三水点靠木的支持。

Python 相关文章推荐
python生成不重复随机数和对list乱序的解决方法
Apr 09 Python
Python实现重建二叉树的三种方法详解
Jun 23 Python
Python中修改字符串的四种方法
Nov 02 Python
对Python实现累加函数的方法详解
Jan 23 Python
Python 取numpy数组的某几行某几列方法
Oct 24 Python
opencv3/Python 稠密光流calcOpticalFlowFarneback详解
Dec 11 Python
python输出数学符号实例
May 11 Python
Python如何实现邮件功能
May 27 Python
解决keras backend 越跑越慢问题
Jun 18 Python
在Pytorch中使用Mask R-CNN进行实例分割操作
Jun 24 Python
Python -m参数原理及使用方法解析
Aug 21 Python
python gui开发——制作抖音无水印视频下载工具(附源码)
Feb 07 Python
使用TFRecord存取多个数据案例
Feb 17 #Python
从多个tfrecord文件中无限读取文件的例子
Feb 17 #Python
Python3连接Mysql8.0遇到的问题及处理步骤
Feb 17 #Python
python3连接MySQL8.0的两种方式
Feb 17 #Python
Win10下安装并使用tensorflow-gpu1.8.0+python3.6全过程分析(显卡MX250+CUDA9.0+cudnn)
Feb 17 #Python
Windows下实现将Pascal VOC转化为TFRecords
Feb 17 #Python
tensorflow生成多个tfrecord文件实例
Feb 17 #Python
You might like
php中用文本文件做数据库的实现方法
2008/03/27 PHP
PHP array_multisort()函数的使用札记
2011/07/03 PHP
php中配置文件操作 如config.php文件的读取修改等操作
2012/07/07 PHP
Apache PHP MySql安装配置图文教程
2016/08/27 PHP
Thinkphp事务操作实例(推荐)
2017/04/01 PHP
JavaScript URL参数读取改进版
2009/01/16 Javascript
jQuery EasyUI API 中文文档 可调整尺寸
2011/09/29 Javascript
JavaScript保留两位小数的2个自定义函数
2014/05/05 Javascript
js中各种类型的变量在if条件中是true还是false
2014/07/16 Javascript
JavaScript Math.ceil 方法(对数值向上取整)
2015/01/09 Javascript
js/jquery判断浏览器类型的方法小结
2015/05/12 Javascript
举例详解JavaScript中Promise的使用
2015/06/24 Javascript
原生javascript实现addClass,removeClass,hasClass函数
2016/02/25 Javascript
jQuery.Form上传文件操作
2017/02/05 Javascript
微信小程序 下拉菜单简单实例
2017/04/13 Javascript
微信小程序实现验证码获取倒计时效果
2018/02/08 Javascript
微信小程序自定义模态弹窗组件详解
2019/12/24 Javascript
Node.js中文件系统fs模块的使用及常用接口
2020/03/06 Javascript
[01:02:06]LGD vs Mineski Supermajor 胜者组 BO3 第二场 6.5
2018/06/06 DOTA
以一个投票程序的实例来讲解Python的Django框架使用
2016/02/18 Python
详解python3百度指数抓取实例
2016/12/12 Python
python学习之hook钩子的原理和使用
2018/10/25 Python
解决Python selenium get页面很慢时的问题
2019/01/30 Python
spyder 在控制台(console)执行python文件,debug python程序方式
2020/04/20 Python
python rsa-oaep加密的示例代码
2020/09/23 Python
Python利用myqr库创建自己的二维码
2020/11/24 Python
Python使用pyenv实现多环境管理
2021/02/05 Python
Django实现简单的分页功能
2021/02/22 Python
H5仿微信界面教程(一)
2017/07/05 HTML / CSS
自动化工程专业个人应聘自荐信
2013/09/26 职场文书
创业计划书中要认真思考的问题
2013/12/28 职场文书
新学期开学寄语
2014/01/18 职场文书
活动邀请函范文
2014/01/19 职场文书
爱心捐书活动总结
2014/07/05 职场文书
初中生考试作弊检讨书
2014/12/14 职场文书
通知书大全
2015/04/27 职场文书