python数据爬下来保存的位置


Posted in Python onFebruary 17, 2020

昨天下班后忽然兴起想写一个爬虫抓抓网页上的东西。花了一个钟简单学习了python的基础语法,然后参照网上的例子自己写了个爬虫。

python数据爬下来保存在本地,一般是文件或数据库中,但是文件形式相比要更加简单,如果只是自己写爬虫玩,可以用文件形式来保存数据。

#coding=utf-8
import urllib.request
import re
import os
 
'''
Urllib 模块提供了读取web页面数据的接口,我们可以像读取本地文件一样读取www和ftp上的数据
urlopen 方法用来打开一个url
read方法 用于读取Url上的数据
'''
 
def getHtml(url):
  page = urllib.request.urlopen(url);
  html = page.read();
  return html;
 
def getImg(html):
  imglist = re.findall('img src="(http.*?)"',html
  return imglist
 
html = getHtml("https://www.zhihu.com/question/34378366").decode("utf-8");
imagesUrl = getImg(html);
 
if os.path.exists("D:/imags") == False:
  os.mkdir("D:/imags");
   
count = 0;
for url in imagesUrl:
  print(url)
  if(url.find('.') != -1):
    name = url[url.find('.',len(url) - 5):];
    bytes = urllib.request.urlopen(url);
    f = open("D:/imags/"+str(count)+name, 'wb');
    f.write(bytes.read());
    f.flush();
    f.close();
    count+=1

经测试,基本功能还是可以实现的。花的较多的时间就是正则匹配哪里,因为自己对正则表达式也不是非常熟悉。所以还是花了点时间。

注:上面的程序基于 python 3.5。python3 和 python2 还是有些区别的。我刚开始看基础语法的时候就栽了一些坑里。

以上就是python数据爬下来保存在哪里的详细内容,感谢大家的学习和对三水点靠木的支持。

Python 相关文章推荐
python使用append合并两个数组的方法
Apr 28 Python
python中numpy基础学习及进行数组和矢量计算
Feb 12 Python
matplotlib 纵坐标轴显示数据值的实例
May 25 Python
pymongo中group by的操作方法教程
Mar 22 Python
在windows下使用python进行串口通讯的方法
Jul 02 Python
Python 3 实现定义跨模块的全局变量和使用教程
Jul 07 Python
django项目环境搭建及在虚拟机本地创建django项目的教程
Aug 02 Python
python实现ip地址的包含关系判断
Feb 07 Python
基于Tensorflow使用CPU而不用GPU问题的解决
Feb 07 Python
利用PyQt中的QThread类实现多线程
Feb 18 Python
python怎么提高计算速度
Jun 11 Python
Python eval函数原理及用法解析
Nov 14 Python
使用TFRecord存取多个数据案例
Feb 17 #Python
从多个tfrecord文件中无限读取文件的例子
Feb 17 #Python
Python3连接Mysql8.0遇到的问题及处理步骤
Feb 17 #Python
python3连接MySQL8.0的两种方式
Feb 17 #Python
Win10下安装并使用tensorflow-gpu1.8.0+python3.6全过程分析(显卡MX250+CUDA9.0+cudnn)
Feb 17 #Python
Windows下实现将Pascal VOC转化为TFRecords
Feb 17 #Python
tensorflow生成多个tfrecord文件实例
Feb 17 #Python
You might like
PHP用GD库生成高质量的缩略图片
2011/03/09 PHP
Array of country list in PHP with Zend Framework
2011/10/17 PHP
smarty内置函数config_load用法实例
2015/01/22 PHP
在Nginx上部署ThinkPHP项目教程
2015/02/02 PHP
Symfony2中被遗弃的getRequest()方法分析
2016/03/17 PHP
PHP使用PDO、mysqli扩展实现与数据库交互操作详解
2019/07/20 PHP
网站页面自动跳转实现方法PHP、JSP(上)
2010/08/01 Javascript
Javascript base64编码实现代码
2011/12/02 Javascript
JavaScript简单实现网页回到顶部功能
2013/11/12 Javascript
js 显示base64编码的二进制流网页图片
2014/04/04 Javascript
js实现div闪烁原理及实现代码
2014/06/24 Javascript
学习JavaScript设计模式(单例模式)
2015/11/26 Javascript
JS组件Bootstrap导航条使用方法详解
2016/04/29 Javascript
vue.js指令v-for使用及索引获取
2016/11/03 Javascript
canvas红包照片实例分享
2017/02/28 Javascript
AngularJS实用基础知识_入门必备篇(推荐)
2017/07/10 Javascript
jquery版轮播图效果和extend扩展
2017/07/18 jQuery
vue-cli webpack 引入jquery的方法
2018/01/10 jQuery
JS简单获取并修改input文本框内容的方法示例
2018/04/08 Javascript
Vue指令之 v-cloak、v-text、v-html实例详解
2019/08/08 Javascript
antd-mobile ListView长列表的数据更新遇到的坑
2020/04/08 Javascript
Vue为什么要谨慎使用$attrs与$listeners
2020/08/27 Javascript
[02:34]2016完美“圣”典风云人物:BurNIng专访
2016/12/10 DOTA
Python实现批量将word转html并将html内容发布至网站的方法
2015/07/14 Python
python绘制立方体的方法
2018/07/02 Python
python3实现在二叉树中找出和为某一值的所有路径(推荐)
2019/12/26 Python
Python tkinter 下拉日历控件代码
2020/03/04 Python
css 省略号 css3让多余的字符串消失并附加省略号的实现代码
2013/02/07 HTML / CSS
HTML5实现的震撼3D焦点图动画的示例代码
2019/09/26 HTML / CSS
Bose美国官网:购买Bose耳机和音箱
2019/03/10 全球购物
外语学院毕业生的自我鉴定
2013/11/28 职场文书
爱心捐款倡议书
2014/04/14 职场文书
2014年计划生育协会工作总结
2014/11/14 职场文书
2015年六一儿童节活动总结
2015/02/11 职场文书
2016党员干部反腐倡廉心得体会
2016/01/13 职场文书
Python 处理表格进行成绩排序的操作代码
2021/07/26 Python