python数据爬下来保存的位置


Posted in Python onFebruary 17, 2020

昨天下班后忽然兴起想写一个爬虫抓抓网页上的东西。花了一个钟简单学习了python的基础语法,然后参照网上的例子自己写了个爬虫。

python数据爬下来保存在本地,一般是文件或数据库中,但是文件形式相比要更加简单,如果只是自己写爬虫玩,可以用文件形式来保存数据。

#coding=utf-8
import urllib.request
import re
import os
 
'''
Urllib 模块提供了读取web页面数据的接口,我们可以像读取本地文件一样读取www和ftp上的数据
urlopen 方法用来打开一个url
read方法 用于读取Url上的数据
'''
 
def getHtml(url):
  page = urllib.request.urlopen(url);
  html = page.read();
  return html;
 
def getImg(html):
  imglist = re.findall('img src="(http.*?)"',html
  return imglist
 
html = getHtml("https://www.zhihu.com/question/34378366").decode("utf-8");
imagesUrl = getImg(html);
 
if os.path.exists("D:/imags") == False:
  os.mkdir("D:/imags");
   
count = 0;
for url in imagesUrl:
  print(url)
  if(url.find('.') != -1):
    name = url[url.find('.',len(url) - 5):];
    bytes = urllib.request.urlopen(url);
    f = open("D:/imags/"+str(count)+name, 'wb');
    f.write(bytes.read());
    f.flush();
    f.close();
    count+=1

经测试,基本功能还是可以实现的。花的较多的时间就是正则匹配哪里,因为自己对正则表达式也不是非常熟悉。所以还是花了点时间。

注:上面的程序基于 python 3.5。python3 和 python2 还是有些区别的。我刚开始看基础语法的时候就栽了一些坑里。

以上就是python数据爬下来保存在哪里的详细内容,感谢大家的学习和对三水点靠木的支持。

Python 相关文章推荐
Python使用functools模块中的partial函数生成偏函数
Jul 02 Python
python实现从pdf文件中提取文本,并自动翻译的方法
Nov 28 Python
Python数据抓取爬虫代理防封IP方法
Dec 23 Python
利用pyinstaller打包exe文件的基本教程
May 02 Python
Python+Selenium使用Page Object实现页面自动化测试
Jul 14 Python
python生成requirements.txt的两种方法
Sep 18 Python
python中对_init_的理解及实例解析
Oct 11 Python
Python调用.NET库的方法步骤
Dec 27 Python
tensorflow自定义激活函数实例
Feb 04 Python
Python字符串对齐、删除字符串不需要的内容以及格式化打印字符
Jan 23 Python
对象析构函数__del__在Python中何时使用
Mar 22 Python
Python绘制散点图之可视化神器pyecharts
Jul 07 Python
使用TFRecord存取多个数据案例
Feb 17 #Python
从多个tfrecord文件中无限读取文件的例子
Feb 17 #Python
Python3连接Mysql8.0遇到的问题及处理步骤
Feb 17 #Python
python3连接MySQL8.0的两种方式
Feb 17 #Python
Win10下安装并使用tensorflow-gpu1.8.0+python3.6全过程分析(显卡MX250+CUDA9.0+cudnn)
Feb 17 #Python
Windows下实现将Pascal VOC转化为TFRecords
Feb 17 #Python
tensorflow生成多个tfrecord文件实例
Feb 17 #Python
You might like
如何在PHP中使用Oracle数据库(1)
2006/10/09 PHP
杏林同学录(八)
2006/10/09 PHP
php中多维数组按指定value排序的实现代码
2014/08/19 PHP
Linux下安装PHP MSSQL扩展教程
2014/10/24 PHP
PHP+MySQL实现无极限分类栏目的方法
2015/12/23 PHP
JavaScript高级程序设计
2006/12/29 Javascript
使用EXT实现无刷新动态调用股票信息
2008/11/01 Javascript
JS 遮照层实现代码
2010/03/31 Javascript
jquery限制输入字数,并提示剩余字数实现代码
2012/12/24 Javascript
jQuery根据纬度经度查看地图处理程序
2013/05/08 Javascript
判断及设置浏览器全屏模式
2014/04/20 Javascript
初始Nodejs
2014/11/08 NodeJs
基于javascript实现右下角浮动广告效果
2016/01/08 Javascript
javascript如何创建对象
2016/08/29 Javascript
JavaScript 随机验证码的生成实例代码
2016/09/22 Javascript
Vue.js:使用Vue-Router 2实现路由功能介绍
2017/02/22 Javascript
详解微信小程序中的页面代码中的模板的封装
2017/10/12 Javascript
ant-design-vue 时间选择器赋值默认时间的操作
2020/10/27 Javascript
JS数据类型分类及常用判断方法
2020/11/19 Javascript
[46:44]VG vs TNC Supermajor小组赛B组败者组决赛 BO3 第一场 6.2
2018/06/03 DOTA
使用Python将Mysql的查询数据导出到文件的方法
2019/02/25 Python
基于Python实现用户管理系统
2019/02/26 Python
浅谈keras中的batch_dot,dot方法和TensorFlow的matmul
2020/06/18 Python
html5 touch事件实现触屏页面上下滑动(二)
2016/03/10 HTML / CSS
html5开发三八女王节表白神器
2018/03/07 HTML / CSS
世界上最大的家庭自动化公司:Smarthome
2017/12/20 全球购物
毕业生自荐书
2013/12/18 职场文书
犯错检讨书
2014/02/21 职场文书
西式婚礼主持词
2014/03/13 职场文书
土建专业大学生自荐信范文
2014/04/09 职场文书
2014年党支部承诺书
2014/05/30 职场文书
小学竞选班长演讲稿
2014/09/09 职场文书
春节随笔
2015/08/15 职场文书
大学生学习十八届五中全会精神心得体会
2016/01/05 职场文书
Python实现学生管理系统(面向对象版)
2021/06/24 Python
html5调用摄像头实例代码
2021/06/28 HTML / CSS